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内 容 提 要 
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本 书 适合 大 数据 时 代 所 有 需要 进行 数据 分 析 的 人 员 阅 读 。 
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推荐 序 


近年 来 大 数据 逐渐 升温 ， 经 常 有 人 问 起 大 数据 为 何 重要 。 我 们 处 在 一 个 数据 爆炸 的 时 代 ， 
大 量 诵 现 的 智能 手机 、 平 板 、 可 穿戴 设备 及 物 联 网 设备 每 时 每 刻 都 在 产生 新 的 数据 。 当 今 
世界 ， 有 90% 的 数据 是 在 过 去 短 短 两 年 内 产生 的 。 到 2020 年 ， 将 有 500 多 亿 台 的 互联 设 
产生 Zeta 字 节 级 的 数据 。 带 来 革命 性 改变 的 并 非 海量 数据 本 身 ， 而 是 我 们 如 何 利用 这 些 
数据 。 大 数据 解决 方案 的 强大 在 于 它们 可 以 快速 处 理 大 规模 、 复 杂 的 数据 集 ， 可 以 比 传统 
方法 更 快 、 更 好 地 生成 洞 见 。 


一 套 大 数据 解决 方案 通常 包含 多 个 重要 组 件 ， 从 存储 、 计 算 和 网 络 等 硬件 层 ， 到 数据 处 理 
引擎 ， 再 到 利用 改良 的 统计 和 计算 算法 、 数 据 可 视 化 来 获得 商业 洞 见 的 分 析 层 。 这 中 间 ， 
数据 处 理 引 擎 起 到 了 十 分 重要 的 作用 。 毫 不 夸张 地 说 ， 数 据 处 理 引擎 之 于 大 数据 就 像 CPU 
之 于 计算 机 ， 或 大 脑 之 于 人 类 。 



























































早 在 2009 年 ，Matei Zaharia 在 加 州 大 学 伯克利 分 校 的 AMPLab 进行 博士 研究 时 创立 了 
Spark 大 数据 处 理 和 计算 框架 。 不 同 于 传统 的 数据 处 理 框架 ，Spark 基于 内 存 的 基本 类 型 
(primitive) 为 一 些 应 用 程序 带 来 了 100 倍 的 性 能 提升 。Spark 允许 用 户 程 序 将 数据 加 载 到 
集群 内 存 中 用 于 反复 查询 ， 非 常 适用 于 大 数据 和 机 器 学 习 ， 日 益 成 为 最 广泛 采用 的 大 数据 
模块 之 一 。 包 括 Cloudera 和 MapR 在 内 的 大 数据 发 行 版 也 在 发 布 时 添加 了 Spark。 


目前 ，Spark 正在 促使 Hadoop 和 大 数据 生态 系统 发 生 演变 ， 以 更 好 地 支持 端 到 端的 大 数 
据 分 析 需 求 ， 例 如 : Spark 已 经 超越 Spark 核心 ， 发 展 到 了 Spark streaming、SQL、MLlib、 
GraphX、SparkR 等 模块 。 学 习 Spark 和 它 的 各 个 内 部 构件 不 仅 有 助 于 改善 大 数据 处 理 速 
度 ， 还 能 帮助 开发 者 和 数据 科学 家 更 轻松 地 创建 分 析 应 用 。 从 企业 、 医 疗 、 交 通 到 零售 
业 ，Spark 这 样 的 大 数据 解决 方案 正 以 前 所 未 见 的 力量 推进 着 商业 洞 见 的 形成 ， 带 来 更 多 
更 好 的 洞 见 以 加 速决 策 制定 。 


在 过 去 几 年 中 ， 我 的 部 门 有 机 会 与 本 书 的 作者 合作 ， 向 Apache Spark 社区 贡献 成 果 ， 并 在 
英特尔 架构 上 优化 各 种 大 数据 和 Spark 应 用 。《Spark 快速 大 数据 分 析 》 的 出 版 为 开发 者 和 
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数据 科学 家 提供 了 丰富 的 Spark 知识 。 更 重要 的 是 ， 这 本 书 不 是 简单 地 教 开发 者 如 何 使 用 
Spark， 而 是 更 深入 介绍 了 Spark 的 内 部 构成 ， 并 通过 各 种 实例 展示 了 如 何 优 化 大 数据 应 
用 。 我 向 大 家 推荐 这 本 书 ， 或 更 具体 点 ， 推 荐 这 本 书 里 提倡 的 优化 方法 和 思路 ， 相 信和 它们 
能 帮助 你 创建 出 更 好 的 大 数据 应 用 。 

















英特尔 软件 服务 事业 部 全 球 大 数据 技术 中 心 总 经 理 马子 雅 
2015 年 7 月 于 加 州 圣 克拉 拉 


Big data is getting hot in recent years. Quite often, folks ask why big data is a big deal. We are 
in the era of data explosion, with the emergence of smart phones, tablets, wearables, IoT devices, 
etc. Ninety percent of the data in the world today was generated in just the past two years. By 
2020, we will see >50B devices connected and Zeta byte data created. It is not the quantity of 
the data that is revolutionary. It is that we can now do something with it that's revolutionary. The 
power of big data solutions is they can process large and complex data sets very fast, generate 


better and faster insights than conventional methods. 


A big data solution suite can consist of several critical components, from the hardware 
layer like storage, compute and network, to data processing engine, to analytics layer where 
business insights are generated using improved statistical & computational algorithms and data 
visualization. Among all, the data processing engine is one most critical player. It is not over- 
stating that the data processing engine for big data is like CPU for a computer or brain for a 


human being. 


Spark was initially started for the purpose of creating a big data processing and computing 
framework, when Matei Zaharia was doing his Ph.D. research at UC Berkeley AMPLab in 2009. 
Different from the traditional data processing framework, Spark's in-memory primitives provide 
performance up to 100 times faster for certain applications. By allowing user programs to load 
data into a cluster's memory and query it repeatedly, Spark is well-suited for big data and machine 
learning use cases. Spark is becoming one best adopted among all big data modules. Big Data 


Distributions like Cloudera, MapR now all include Spark into their distributions. 


Spark is now evolving the Hadoop and big data ecosystem to better support the end-to-end 
big data analytics needs, e.g. Spark grew beyond Spark core to Spark streaming, SQL, MLlib, 
GraphX, SparkR, etc. Learning Spark and its internals will not just help improve the processing 
speed for big data, but also help developers and data scientists create analytics applications with 


more ease. With big data solutions like Spark, we expect to see significant improvement with 
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business insights which will help expedite the decision making 一 like we've never Seen before, 


from enterprise, healthcare, transportation, and retail. 


Over the years, my organization had the opportunities to work with authors of this book, 
contribute to Apache Spark, and optimize various Big Data and Spark application on Intel 
Architecture. The publication of Learning Spark offers developers and data scientists” extensive 
knowledge on Spark. Moreover, Learning Spark does not simply try to tell the developers how 
to use Spark, it also addresses the internals and shows various examples of how to improve your 
big data applications. I recommend Learning Spark—that this book, and, more specifically, the 


method it espouses, will change your big data application for the better. 


Ziya Ma, General Manager of the global Big Data Technologies organization, 
SSG STO, Intel Corp. 
Santa Clara, California, July 2015 








大 数据 是 近 儿 年 广 受 关注 的 一 个 概念 。 今 天 ， 互 联网 不 断 发 展 ， 逐 渐 深 入 我 们 生活 的 各 个 
层面 ， 随 之 而 来 的 是 数据 量 的 指数 级 增长 。 很 久 以 前 ， 人 类 就 学 人 
价值 的 结论 。 有 时 ， 影 响 结论 的 因素 过 多 ， 采 样 的 数据 无 法 有 效 保 留 所 有 因素 的 影响 ， 和 
出 的 结论 就 不 够 有 效 。 如 果 不 使 用 采样 ， 而 原始 数据 规模 巨大 ， 我 们 就 需 要 改进 雪 据 处 理 
的 手段 。 从 人 工 统计 到 利用 一 些 传统 的 计算 机 软件 进行 分 析 ， 再 到 MapReduce 模型 ， 随 着 
数据 规模 不 断 增长 ， 我 们 处 理 数据 的 方式 也 在 不 断 升级 。 如 今 ， 硬 件 产业 的 不 断 发 展 使 得 
内 存 计算 成 为 了 可 能 ，Spark 由 此 出 现 ， 并 且 像 它 的 名 字 一 样 ， 以 星火 之 势 ， 迅 速 赢得 了 
工业 界 的 青睐 。 


《Spark 快速 大 数据 分 析 》 是 一 本 为 Spark 初学 者 准备 的 书 ， 它 没有 过 多 深入 实现 细节 ， 而 
是 更 多 关注 上 层 用 户 的 具体 用 法 。 不 过 ， 本 书 绝 不 仅仅 限于 Spark 的 用 法 ， 它 对 Spark 的 
核心 概念 和 基本 原理 也 有 较为 全 面 的 介绍 ， 让 读者 能 够 知 其 然 且 知 其 所 以 然 。 


Spark 只 是 一 个 通用 计算 框架 ， 利 用 Spark 实现 的 应 用 才 是 其 真正 价值 所 在 。 我 们 很 欣慰 
地 看 到 ， 国 内 的 许多 知名 互联 网 公司 已 经 利用 Spark 创造 出 了 难以 估量 的 价值 。 本 书 的 读 
者 不 妨 也 尝试 把 Spark 应 用 到 实践 中 ， 去 探寻 数据 海洋 里 的 无 尽 瑰宝 。 


本 书 得 以 完成 ， 离 不 开 各 方 支持 。 感 谢 人 民 邮 电 出 版 社 图 灵 公 司 的 李 松 峰 老师 、 质 新 欣 
老师 、 张 曼 老 师 ， 他 们 为 本 译 稿 的 出 版 提供 了 大 力 支 持 。 感 谢 本 人 所 在 的 英特尔 亚太 研 
发 有 限 公司 大 数据 团队 ， 其 中 程 浩 、 孙 锐 、 合 育才 、 张 李 轮 分 别 负责 了 本 书 各 部 分 的 审 校 
工作 ， 黄 洁 、 邵 赛 赛 、 史 鸣 飞 也 为 本 书 的 翻译 工作 提供 了 帮助 。 感 谢 Databricks 的 连城 学 
长 ， 他 促成 了 我 与 出 版 社 的 合作 。 在 翻译 的 过 程 中 ， 来 自家 人 与 朋友 的 理解 和 支持 也 让 我 
深 深 感动 。 


如 本 书 所 述 ，Spark 是 一 个 大 一 统 的 软件 栈 ， 涉 及 方方面面 的 知识 ， 为 本 书 的 翻译 增加 了 
不 少 难度 。 尽 管 译 者 一 直 努 力 保证 翻译 的 准确 性 ， 由 于 学 识 有 限 ， 难 免 会 有 政 忽 之 处 。 而 
大 数据 作为 一 门 新 兴学 科 ， 许 多 术语 尚未 有 约定 俗 成 的 译 法 。Spark 也 在 不 断 发 展 中 ， 本 
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书 英 文稿 是 根据 Spark 1.2 编 复 ， 而 译 者 也 尽量 标注 了 直至 Spark 1.4 为 止 (翻译 时 的 最 新 
版 本 ) 引入 的 一 些 变化 。 如 果 读 者 发 现 了 本 书 中 的 不 足 或 错误 之 处 ， 妨 请 批评 指正 。 我 的 
电子 邮箱 是 : me@daoyuan.wang。 





王道 远 
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Spark 作为 下 一 代 大 数据 处 理 引擎 ， 在 非常 短 的 时 间 里 狐 露 头角 ， 并 且 以 粹 原 之 势 席卷 
业界 。Spark 对 曾经 引爆 大 数据 产业 革命 的 Hadoop MapReduce 的 改进 主要 体现 在 这 几 个 
方面 : 首先 ，Spark 速度 更 快 ， 其 次 ，Spark 丰富 的 API 带 来 了 更 强大 的 易 用 性 ;最 后 ， 
Spark 不 单单 支持 传统 批 处 理应 用 ， 更 支持 交互 式 查询 、 流 式 计 算 、 机 器 学 习 、 图 计算 等 






































各 种 应 用 ， 满 足 各 种 不 同 应 用 场景 下 的 需求 。 


我 很 采 亚 能 够 一 直 密 切 地 参与 到 Spark 的 开发 中 ， 伴 随 Spark 一 路 走 来 ， 看 着 Spark 从 草 
稿 纸 上 的 原型 成 长 为 当下 最 活跃 的 大 数据 开源 项 目 。 如 今 ，Spark 已 经 成 为 Apache 基金 会 
下 最 为 活跃 的 项 目 之 一 。 不 仅 如 此 ， 我 也 为 结识 Spark 项 目 创始 人 Matei Zaharia 以 及 其 他 
几 位 Spark 长 期 开发 者 Patrick Wendell、Andy Konwinski 和 Holden Karau 感到 由 圳 高 兴 。 





正 是 他 们 四 位 完成 了 本 书 的 著作 工作 。 


随 着 Spark 的 迅速 流行 ， 相 关 优秀 参考 资料 苇 乏 的 问题 顿时 突显 出 来 。 本 书 共 有 11 章 ， 包 
含 许多 专 为 渴望 学 习 Spark 的 数据 科学 家 、 学 生 、 开 发 者 们 设计 的 具体 实例 ， 大 大 缓解 了 


二 时 . 





Spark 缺少 优秀 参考 资料 的 问题 。 即 使 是 没有 大 数据 方 玫 








] 月 贡 





知识 上 


的 读者 ， 也 可 以 把 本 书 











作为 入 门 大 数据 领域 的 明智 之 选 。 我 真挚 地 希望 这 本 书 能 引领 你 和 其 他 读者 走 进 大 数据 这 





个 令 人 激动 的 新 领域 ， 在 多 年 之 后 依然 令 你 回味 无 穷 。 
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Databricks 公司 首席 执行 官 ， 加 州 大 学 伯克利 分 校 AMPlab 联合 主任 Ion Stoica 
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随 着 并 行 数据 分 析 变 得 越 来 越 流行 ， 各 行 各 业 的 工作 者 都 迫切 需要 更 好 的 数据 分 析 工 具 。 
Spark 应 运 而 生 ， 并 且 了 迅速 火 了 起 来 。 作 为 MapReduce 的 继承 者 ，Spark 主要 有 三 个 优点 。 
首先 ，Spark 非常 好 用 。 由 于 高 级 API 剥离 了 对 集群 本 身 的 关 广 ， 你 可 以 专注 于 你 所 要 做 
的 计算 本 身 ， 只 需 在 自己 的 笔记 本 电脑 上 就 可 以 开发 Spark 应 用 。 其 次 ，Spark 很 快 ， 支 
持 交 互 式 使 用 和 复杂 算法 。 最 后 ，Spark 是 一 个 通用 引擎 ， 可 用 它 来 完成 各 种 各 样 的 运算 ， 
包括 SQL 查询 、 文 本 处 理 、 机 器 学 习 等 ， 而 在 Spark 出 现 之 前 ， 我 们 一 般 需 要 学 习 各 种 各 
样 的 引擎 来 分 别处 理 这 些 需 求 。 这 三 大 优点 也 使 得 Spark 可 以 作为 学 习 大 数据 的 一 个 很 好 
的 起 点 。 


本 书 主要 介绍 Spark， 让 读者 能 够 轻松 入 门 并 玩 转 Spark。 你 能 从 本 书 中 学 到 如 何 让 Spark 
在 你 的 电脑 上 运行 起 来 ， 并 且 通 过 交互 式 操作 来 学 习 Spark 的 API。 我 们 也 会 讲解 一 些 用 
Spark 作 数 据 操作 和 分 布 式 执行 时 的 细节 。 最 后 ， 本 书 会 带 你 畅游 Spark 上 一 些 高 级 的 程序 
库 ， 包 括 机 器 学 习 、 流 处 理 、 图 计算 和 SQL 查询 。 我 们 希望 本 书 能 够 让 你 了 解 Spark。 不 
论 你 只 有 一 台电 脑 还 是 有 一 个 庞大 的 集群 ，Spark 都 能 成 为 令 你 运筹 帷 怪 的 数据 分 析 工 具 。 


读者 对 象 

本 书 的 目标 读者 是 数据 科学 家 和 工程 师 。 我 们 选择 这 两 个 群体 的 原因 ， 在 于 他 们 能 够 利用 
Spark 去 解决 一 些 可 能 会 遇 到 但 是 没有 办 法 解决 的 问题 。Spark 提供 了 功能 丰富 的 数据 操 
作 库 (例如 MLlib)， 可 以 帮助 数据 科学 家 利用 他 们 自己 的 统计 学 背景 知识 ， 研 究 数 据 集 
大 小 超过 单机 所 能 处 理 极限 的 数据 问题 。 与 此 同时 ， 工 程 师 们 则 可 以 从 本 书 中 学 习 和 利用 
Spark 编写 通用 的 分 布 式 程序 并 运 维 这 些 应 用 。 工 程 师 和 数据 科学 家 都 不 仅 能 从 本 书 中 学 
到 各 自 需 要 的 具体 技能 ， 而 且 还 能 够 在 各 自 领 域 中 利用 Spark 解决 大 型 分 布 式 问题 。 
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数据 科学 家 关注 如 何 从 数据 中 发 现 关 联 以 及 建立 模型 。 数 据 科学 家 通常 有 着 统计 学 或 者 数 
学 背景 ， 他 们 中 的 大 多 数 也 熟悉 Python 语言 、R 语言 、SQL 等 传统 数据 分 析 工 具 。 在 本 书 
中 ， 我 们 不 仅 会 讲 到 Spark 中 一 些 机 器 学 习 和 高 级 数据 分 析 的 程序 库 ， 也 会 把 一 些 Python 
或 者 SQL 的 应 用 作为 Spark 使 用 示例 进行 展示 。 如 果 你 是 一 位 数据 科学 家 ， 我 们 希望 你 读 
完 本 书 之 后 ， 能 够 在 获得 更 快速 度 和 更 大 数据 规模 支持 的 同时 ， 使 用 早已 熟悉 的 方式 来 解 
决 问题 。 


本 书 的 第 二 类 目标 读者 是 软件 工程 师 。 对 于 工程 师 ， 不 管 你 擅长 的 是 Java 还 是 Python， 抑 
或 是 别 的 编程 语言 ， 我 们 希望 这 本 书 能 够 教会 你 如 何 搭建 一 个 Spark 集群 ， 如 何 使 用 Spark 
shell， 以 及 如 何 编写 Spark 应 用 程序 来 解决 需要 并 行 处 理 的 问题 。 如 果 你 熟悉 Hadoop， 你 
就 已 经 在 如 何 与 HDFS 进行 交互 以 及 如 何 管理 集群 的 领域 中 领先 了 一 小 步 。 即 使 你 没有 
Hadoop 经 验 也 不 用 担心 ， 我 们 会 在 本 书 中 讲解 一 些 基本 的 分 布 式 执行 的 概念 。 


不 论 你 是 数据 分 析 师 还 是 工程 师 ， 如 果 想 读 透 这 本 书 ， 就 应 当 对 Python、Java、Scala 或 者 
一 门类 似 的 编程 语言 有 一 些 基本 了 解 。 另 外 ， 我 们 假设 你 已 经 有 了 关于 数据 存储 的 解决 方 
案 ， 所 以 不 会 讲 到 如 何 搭建 一 个 数据 存储 系统 ， 不 过 我 们 会 介绍 如 何在 常见 的 数据 存储 系 
统 上 读 取 和 保存 数据 。 即 使 你 没 用 过 这 些 编 程 语言 也 不 必 担 心 ， 有 很 多 优秀 的 学 习 资 源 可 
以 帮助 你 理解 这 些 语 言 ， 我 们 在 下 文 的 相关 书籍 中 列举 了 一 些 。 


本 书 结构 


本 书 结构 清晰 ， 章 节 是 按照 从 前 到 后 依次 阅读 的 顺序 组 织 的 。 在 每 一 章 的 开头 ， 我 们 会 说 
明 本 章 中 的 哪些 小 节 对 于 数据 科学 家 们 更 重要 ， 而 哪些 小 节 则 对 于 工程 师 们 更 为 有 用 。 话 
虽 如 此 ， 我 们 还 是 希望 书 中 的 所 有 内 容 对 两 类 读者 都 能 有 一 定 的 帮助 。 


前 两 章 将 会 带 你 入 门 ， 让 你 在 自己 的 电脑 上 搭 好 一 个 基础 的 Spark， 并 且 让 你 对 于 用 Spark 
能 做 什么 有 一 个 基本 的 概念 。 等 我 们 弄 明 白 了 Spark 的 目标 和 Spark 的 安装 之 后 ， 就 会 着 
重 介绍 Spark shell。Spark shell 是 开发 Spark 应 用 原型 时 非常 有 用 的 工具 。 后 续 儿 章 则 会 详 
细 介 绍 Spark API、 如 何 将 Spark 应 用 运行 在 集群 上 ， 以 及 Spark 所 提供 的 更 高 层 的 程序 库 
支持 ， 例 如 SQL (数据 库 支持 ) 和 MLlib (机 器 学 习 库 )。 


相关 书籍 


如 果 你 是 一 个 没有 太 多 Python 经 验 的 数据 科学 家 ， 那 么 我 们 向 你 推荐 Learning Python 
(O’Reilly) 和 Head First Python (O'Reilly)。 如 果 你 已 经 有 了 一 定 的 Python 经 验 ， 那 么 
Dive Into Python (http://www.diveintopython.net/) 可 以 进一步 加 深 你 对 Python 的 理解 。 






















































































如 果 你 是 个 工程 师 ， 读 完 本 书 之 后 还 希望 提高 自己 的 数据 分 析 技 能 ，O’Reilly 出 版 的 
Machine Learning for Hackers 和 Doing Data Science 是 不 错 的 参考 书 。 





本 书 主要 为 初学 者 而 写 ， 但 我 们 也 正在 计划 为 那些 渴望 全 面 理解 Spark 内 部 原理 的 人 写 一 





本 更 加 深入 的 书 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 


。 楷体 
表示 新 术语 。 





。 等 宽 字 体 (Constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 





句 和 关键 字 等 。 


加 粗 等 宽 字 体 (Constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





图 标 表 示 提 示 或 建议 。 


Ne 


该 图 标 表示 警告 或 警示 。 








使 用 代码 示例 


语 


本 书 中 所 有 的 示例 代码 都 可 以 在 GitHub 上 找到 。 你 可 以 从 https://github.com/databricks/ 


learning-spark 中 查看 和 检 出 这 些 代 码 。 示 例 代码 包含 Java、Scala 和 Python 的 版 本 。 


Java 版 本 的 示例 代码 兼容 Java 6 以 及 更 高 版 本 。Java 8 引入 了 支持 lambda 的 
新 语法 ， 可 以 更 方便 地 编写 内 联 函 数 而 简化 Spark 代码 。 由 于 许多 机 构 还 没 
有 开始 使 用 Java 8， 我 们 决定 在 我 们 的 大 多 数 示例 中 不 使 用 这 一 新 语法 。 如 
果 你 对 Java 8 的 语法 很 感 兴趣 ， 可 以 查阅 Databricks 关于 Java 8 语法 的 博文 
(http://databricks.com/blog/2014/04/14/spark-with-java-8.html)。 有 一 些 示例 程 
序 也 会 移植 到 Java 8 上 ， 并 且 发 布 在 本 书 的 GitHub 代码 仓库 中 。 






































本 书 是 要 帮 你 完成 工作 的 。 We 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Web Development with Node and Express by Ethan Brown 
(O’Reilly). Copyright 2014 Ethan Brown, 978-1-491-94930-6.” 






































如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


Safari2 Books Online 


Safari Books Online (http:/www.safaribooksonline.com) 是 应 运 
S a f 人 在 书 入。 疡 同时 以 国 书 和 视频 的 形式 出版 世界 顶级 
Boo online” 技术 和 商务 作家 的 专业 作品 。 技 术 专家 、 软 件 开发 人 员 、Web 
设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 
习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 














对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、Prentice 
Hall Professional、Addison-Wesley Professional、 Microsoft Press、Sams、Que、Peachpit 











Press、 Focal Press、 Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、 Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、 
Jones && Bartlett、Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 

O’Reilly Media, Inc. 


1005 Gravenstein Highway North 
Sebastopol, CA 95472 











x 
x 
到 
了 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京) 有 限 公 司 


O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://bit.ly/web_dev_node_express 








对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 ; bookquestions@oreilly.com。 





要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 











我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 
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Spark 数 据 分 析 导 论 





本 章 会 从 宏观 角度 介绍 Spark 到 底 是 什么 。 如 果 你 已 经 对 Spark 和 相关 组 件 有 一 定 了 解 ， 
你 可 以 选择 直接 从 第 2 章 开始 读 。 


1.1 Spark 是 什么 
Spark 是 一 个 用 来 实现 快速 而 通用 的 集群 计算 的 平台 。 


在 速度 方面 ，Spark 扩展 了 广泛 使 用 的 MapReduce 计算 模型 ， 而 且 高 效 地 支持 更 多 计算 模 
式 ， 包 括 交 互 式 查 询 和 流 处 理 。 在 处 理 大 规模 数据 集 时 ， 速 度 是 非常 重要 的 。 速 度 快 就 意 
味 着 我 们 可 以 进行 交互 式 的 数据 操作 ， 否 则 我 们 每 次 操作 就 需要 等 待 数 分 钟 甚至 数 小 时 。 
Spark 的 一 个 主要 特点 就 是 能 够 在 内 存 中 进行 计算 ， 因 而 更 快 。 不 过 即使 是 必须 在 磁盘 上 
进行 的 复杂 计算 ，Spark 依然 比 MapReduce 更 加 高 效 。 


总 的 来 说 ，Spark 适用 于 各 种 各 样 原先 需要 多 种 不 同 的 分 布 式 平 台 的 场景 ， 包 括 批 处 理 、 
和 代 算法 、 交 互 式 查询 、 流 处 理 。 通 过 在 一 个 统一 的 框架 下 支持 这 些 不 同 的 计算 ，Spark 
使 我 们 可 以 简单 而 低 耗 地 把 各 种 处 理 流程 整合 在 一 起 。 而 这 样 的 组 合 ， 在 实际 的 数据 分 析 
过 程 中 是 很 有 意义 的 。 不 仅 如 此 ，Spark 的 这 种 特性 还 大 大 减轻 了 原先 需要 对 各 种 平台 分 
别管 理 的 负担 。 






























































Spark 所 提供 的 接口 非常 丰富 。 除 了 提供 基于 Python、Java、Scala 和 SQL 的 简单 易 用 的 
API 以 及 内 建 的 丰富 的 程序 库 以 外 ，Spark 还 能 和 其 他 大 数据 工具 密切 配合 使 用 。 例 如 ， 
Spark 可 以 运行 在 Hadoop 集群 上 ,访问 包括 Cassandra 在 内 的 任意 Hadoop 数据 源 。 




















1.2 一 个 大 一 统 的 软件 栈 

Spark 项 目 包 含 多 个 紧密 集成 的 组 件 。Spark 的 核心 是 一 个 对 由 很 多 计算 任务 组 成 的 、 运 行 
在 多 个 工作 机 器 或 者 是 一 个 计算 集群 上 的 应 用 进行 调度 、 分 发 以 及 监控 的 计算 引擎 。 由 于 
Spark 的 核心 引擎 有 着 速度 快 和 通用 的 特点 ， 因 此 Spark 还 支持 为 各 种 不 同 应 用 场景 专门 
设计 的 高 级 组 件 ， 比 如 SQL 和 机 器 学 习 等 。 这 些 组 件 关 系 密切 并 且 可 以 相互 调用 ， 这 样 你 
就 可 以 像 在 平常 软件 项 目 中 使 用 程序 库 那 样 ， 组 合 使 用 这 些 的 组 件 。 


各 组 件 间 密 切 结合 的 设计 原理 有 这 样 几 个 优点 。 首 先 ， 软 件 栈 中 所 有 的 程序 库 和 高 级 组 件 
都 可 以 从 下 层 的 改进 中 获 益 。 比 如 ， 当 Spark 的 核心 引擎 新 引入 了 一 个 优化 时 ，SQL 和 机 
器 学 习 程序 库 也 都 能 自动 获得 性 能 提升 。 甚 次， 运行 整个 软件 栈 的 代价 变 小 了 。 不 需要 运 
行 5 到 10 套 独 立 的 软件 系统 了 ， 一 个 机 构 只 需要 运行 一 套 软件 系统 即 可 。 这 些 代价 包 括 
系统 的 部 署 、 维 护 、 调 试 、 支 持 等 。 这 也 意味 着 Spark 软件 栈 中 每 增加 一 个 新 的 组 件 ， 使 
用 Spark 的 机 构 都 能 马上 试用 新 加 入 的 组 件 。 这 就 把 原先 尝试 一 种 新 的 数据 分 析 系 统 所 需 
要 的 下 载 、 部 署 并 学 习 一 个 新 的 软件 项 目的 代价 简化 成 了 只 需要 升级 Spark。 


最 后 ， 密 切 结合 的 原理 的 一 大 优点 就 是 ， 我 们 能 够 构建 出 无 颖 整合 不 同 处 理 模型 的 应 用 。 
例如 ， 利 用 Spark， 你 可 以 在 一 个 应 用 中 实现 将 数据 流 中 的 数据 使 用 机 器 学 习 算法 进行 实 
时 分 类 。 与 此 同时 ， 数 据 分 析 师 也 可 以 通过 SQL 实时 查询 结果 数据 ， 比 如 将 数据 与 非 结 
构 化 的 日 志文 件 进行 连接 操作 。 不 仅 如 此 ， 有 经 验 的 数据 工程 师 和 数据 科学 家 还 可 以 通过 
Python shell 来 访问 这 些 数据 ， 进 行 即时 分 析 。 其 他 人 也 可 以 通过 独立 的 批 处 理应 用 访问 这 
些 数据 。IT 团队 始终 只 需要 维护 一 套 系统 即 可 。 
































Spark 的 各 个 组 件 如 图 1-1 所 示 ， 下 面 来 依次 简要 介绍 它们 。 





Spark 
Streaming 


实时 计算 


Spark SQL 
结构 化 数据 





1-1: Spark 软件 栈 











1.2.1 Spark Core 
Spark Core 实现 了 Spark 的 基本 功能 ， 包 含 任务 调度 、 内 存 管 理 、 错 误 恢 复 、 与 存储 系统 
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交互 等 模块 。Spark Core 中 还 包含 了 对 弹性 分 布 式 数据 集 (resilient distributed dataset， 简 
称 RDD) 的 API 定 义 。RDD 表示 分 布 在 多 个 计算 节点 上 可 以 并 行 操 作 的 元 素 集合 ， 是 
Spark 主要 的 编程 抽象 。Spark Core 提供 了 创建 和 操作 这 些 集合 的 多 个 API。 








1.2.2 Spark SQL 


Spark SQL 是 Spark 用 来 操作 结构 化 数据 的 程序 包 。 通 过 Spark SQL， 我 们 可 以 使 用 SQL 
或 者 Apache Hive 版 本 的 SQL 方言 (HQL) 来 查询 数据 。Spark SQL 支持 多 种 数据 源 ， 比 
如 Hive 表 、Parquet 以 及 JSON 等 。 除 了 为 Spark 提供 了 一 个 SQL 接口 ，Spark SQL 还 支 
持 开 发 者 将 SQL 和 传统 的 RDD 编程 的 数据 操作 方式 相 结合 ， 不 论 是 使 用 Python、Java 还 
是 Scala， 开 发 者 都 可 以 在 单个 的 应 用 中 同时 使 用 SQL 和 复杂 的 数据 分 析 。 通 过 与 Spark 
所 提供 的 丰富 的 计算 环境 进行 如 此 紧密 的 结合 ，Spark SQL 得 以 从 其 他 开源 数据 仓库 工具 
中 脱颖而出 。Spark SQL 是 在 Spark 1.0 中 被 引入 的 。 




















在 Spark SQL 之 前 ， 加 州 大 学 伯克利 分 校 曾经 尝试 修改 Apache Hive 以 使 其 运行 在 Spark 
上 ， 当 时 的 项 目 叫 作 Shark。 现 在 ， 由 于 Spark SQL 与 Spark 引擎 和 API 的 结合 更 紧密 ， 
Shark 已 经 被 Spark SQL 所 取代 。 





1.2.3 Spark Streaming 

Spark Streaming 是 Spark 提供 的 对 实时 数据 进行 流 式 计算 的 组 件 。 比 如 生产 环境 中 的 网 页 
服务 器 日 志 ， 或 是 网 络 服务 中 用 户 提交 的 状态 更 新 组 成 的 消息 队列 ， 都 是 数据 流 。Spark 
Streaming 提供 了 用 来 操作 数据 流 的 API， 并 且 与 Spark Core 中 的 RDD API 高 度 对 应 。 这 
样 一 来 ， 程 序 员 编 写 应 用 时 的 学 习 门 槛 就 得 以 降低 ， 不 论 是 操作 内 存 或 硬盘 中 的 数据 ， 还 
是 操作 实时 数据 流 ， 程 序 员 都 更 能 应 对 自如 。 从 底层 设计 来 看 ，Spark Streaming 支持 与 
Spark Core 同 级 别 的 容错 性 、 吞 吐 量 以 及 可 伸缩 性 。 


























1.2.4 MLlib 

Spark 中 还 包含 一 个 提供 常见 的 机 器 学 习 (ML) 功能 的 程序 库 ， 叫 作 MLlib。MLlib 提供 
了 很 多 种 机 器 学 习 算 法 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 等 ， 还 提供 了 模型 评估 、 数 据 
导入 等 额外 的 支持 功能 。MLlib 还 提供 了 一 些 更 底层 的 机 器 学 习 原 语 ， 包 括 一 个 通用 的 梯 
度 下 降 优 化 算法 。 所 有 这 些 方 法 都 被 设计 为 可 以 在 集群 上 轻松 伸缩 的 架构 。 











1.2.5 GraphX 

GraphX 是 用 来 操作 图 (比如 社交 网 络 的 朋友 关系 图 ) 的 程序 库 ， 可 以 进行 并 行 的 图 计算 。 
与 Spark Streaming 和 Spark SQL 类 似 ，GraphX 也 扩展 了 Spark 的 RDD API， 能 用 来 创建 
一 个 顶点 和 边 都 包含 任意 属性 的 有 向 图 。GraphX 还 支持 针对 图 的 各 种 操作 (比如 进行 图 
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分 割 的 subgraph 和 操作 所 有 顶点 的 mapVertices)， 以 及 一 些 常用 图 算法 (比如 PageRank 
和 三 角 计数 )。 





1.2.6 ”集群 管理 器 

就 底层 而 言 ，Spark 设计 为 可 以 高 效 地 在 一 个 计算 节点 到 数 千 个 计算 节点 之 间 伸 缩 计 
算 。 为 了 实现 这 样 的 要 求 ， 同 时 获得 最 大 灵活 性 ，Spark 支持 在 各 种 集群 管理 器 (cluster 
manager) 上 运行 ， 包 括 Hadoop YARN、Apache Mesos， 以 及 Spark 自 带 的 一 个 简易 调度 
器 ， 叫 作 独 立 调度 器 。 如 果 要 在 没有 预 装 任何 集群 管理 器 的 机 器 上 安装 Spark， 那 么 Spark 
自 带 的 独立 调度 器 可 以 让 你 轻松 入 门 ， 而 如 果 已 经 有 了 一 个 装 有 Hadoop YARN 或 Mesos 
的 集群 ， 通 过 Spark 对 这 些 集 群 管理 器 的 支持 ， 你 的 应 用 也 同样 能 运行 在 这 些 集群 上 。 第 
7 章 会 详细 探讨 这 些 不 同 的 选项 以 及 如 何 选择 合适 的 集群 管理 器 。 


1.3 Spark 的 用 户 和 用 途 


Spark 是 一 个 用 于 集群 计算 的 通用 计算 框架 ， 因 此 被 用 于 各 种 各 样 的 应 用 程序 。 在 前 言 中 
我 们 提 到 了 本 书 的 两 大 目标 读者 人 群 : 数据 科学 家 和 工程 师 。 仔 细 分 析 这 两 个 群体 以 及 他 
们 使 用 Spark 的 方式 ， 我 们 不 难 发 现 这 两 个 群体 使 用 Spark 的 典型 用 例 并 不 一 致 ， 不 过 我 
们 可 以 把 这 些 用 例 大 致 分 为 两 类 一 一 数据 科学 应 用 和 数据 处 理应 用 。 


当然 ， 这 种 领域 和 使 用 模式 的 划分 是 比较 模糊 的 。 很 多 人 也 兼 有 数据 科学 家 和 工程 师 的 能 
力 ， 有 的 时 候 扮演 数据 科学 家 的 角色 进行 研究 ， 然 后 摇身一变 成 为 工程 师 ， 熟 练 地 编写 复 
杂 的 数据 处 理 程序 。 不 管 怎样 ， 分 开 看 这 两 大 群体 和 相应 的 用 例 是 很 有 意义 的 。 


1.3.1 数据 科学 任务 

数据 科学 是 过 去 几 年 里 出 现 的 新 学 科 ， 关 注 的 是 数据 分 析 领 域 。 尽 管 没 有 标准 的 定义 ， 但 
我 们 认为 数据 科学 家 (data scientist) 就 是 主要 负责 分 析 数 据 并 建 模 的 人 。 数 据 科 学 家 有 
可 能 具备 SQL、 统 计 、 预 测 建 模 (机 器 学 习 ) 等 方面 的 经 验 ， 以 及 一 定 的 使 用 Python、 
Matlab 或 R 语言 进行 编程 的 能 力 。 将 数据 转换 为 更 方便 分 析 和 观察 的 格式 ， 通 常 被 称 为 数 
据 转换 (data wrangling)， 数 据 科 学 家 也 对 这 一 过 程 中 的 必要 技术 有 所 了 解 。 


数据 科学 家 使 用 他 们 的 技能 来 分 析 数 据 ， 以 回答 问题 或 发 现 一 些 潜 在 规律 。 他 们 的 工作 流 
经 常会 用 到 即时 分 析 ， 所 以 他 们 可 以 使 用 交互 式 shell 替代 复杂 应 用 的 构建 ， 这 样 可 以 在 最 
短 时 间 内 得 到 查询 语句 和 一 些 简 单 代码 的 运行 结果 。Spark 的 速度 以 及 简单 的 API 都 能 在 
这 种 场景 里 大 放 光 彩 ， 而 Spark 内 建 的 程序 库 的 支持 也 使 得 很 多 算法 能 够 即刻 使 用 。 


Spark 通过 一 系列 组 件 支持 各 种 数据 科学 任务 。Spark shell 通过 提供 Python 和 Scala 的 接 
口 ， 使 我 们 方便 地 进行 交互 式 数 据 分 析 。Spark SQL 也 提供 一 个 独立 的 SQL shell， 我 们 可 
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以 在 这 个 shell 中 使 用 SQL 探索 数据 ， 也 可 以 通过 标准 的 Spark 程序 或 者 Spark shell 来 进 
行 SQL 查询 。 机 器 学 习 和 数据 分 析 则 通过 MLlib 程序 库 提供 支持 。 另 外 ，Spark 还 能 支持 
调用 RR 或 者 Matlab 写成 的 外 部 程序 。 数 据 科学 家 在 使 用 R 或 Pandas 等 传统 数据 分 析 工 具 
时 所 能 处 理 的 数据 集 受 限 于 单机 ， 而 有 了 Spark， 就 能 处 理 更 大 数据 规模 的 问题 。 


在 初始 的 探索 阶段 之 后 ， 数 据 科学 家 的 工作 需要 被 应 用 到 实际 中 。 具 体 问题 包括 扩展 应 用 
的 功能 、 提 高 应 用 的 稳定 性 ， 并 针对 生产 环境 进行 配置 ， 使 之 成 为 业务 应 用 的 一 部 分 。 例 
如 ， 在 数据 科学 家 完成 初始 的 调研 之 后 ， 我 们 可 能 最 终 会 得 到 一 个 生产 环境 中 的 推荐 系 
统 ， 可 以 整合 在 网 页 应 用 中 ， 为 用 户 提供 产品 推荐 。 一 般 来 说 ， 将 数据 科学 家 的 工作 转化 
为 实际 生产 中 的 应 用 的 工作 是 由 另外 的 工程 师 或 者 工程 师 团队 完成 的 ， 而 不 是 那些 数据 科 


学 家 。 












































1.3.2 ”数据 处 理应 用 

Spark 的 另 一 个 主要 用 例 是 针对 工程 师 的 。 在 这 里 ， 我 们 把 工程 师 定 义 为 使 用 Spark 开发 
生产 环境 中 的 数据 处 理应 用 的 软件 开发 者 。 这 些 开 发 者 一 般 有 基本 的 软件 工程 概念 ， 比 如 
封装 、 接 口 设计 以 及 面向 对 象 的 编程 思想 ， 他 们 通常 有 计算 机 专业 的 背景 ， 并 且 能 使 用 工 
程 技术 来 设计 和 搭建 软件 系统 ， 以 实现 业务 用 例 。 


对 工程 师 来 说 ，Spark 为 开发 用 于 集群 并 行 执 行 的 程序 提供 了 一 条 捷径 。 通 过 封装 ，Spark 
不 需要 开发 者 关注 如 何在 分 布 式 系统 上 编程 这 样 的 复杂 问题 ， 也 无 需 过 多 关注 网 络 通信 和 
程序 容错 性 。Spark 已 经 为 工程 师 提供 了 足够 的 接口 来 快速 实现 常见 的 任务 ， 以 及 对 应 用 
进行 监视 、 审 查 和 性 能 调 优 。 其 API 模块 化 的 特性 (基于 传递 分 布 式 的 对 象 集 ) 使 得 利用 
程序 库 进 行 开 发 以 及 本 地 测试 大 大 简化 。 


Spark 用 户 之 所 以 选择 Spark 来 开发 他 们 的 数据 处 理应 用 ， 正 是 因为 Spark 提供 了 丰富 的 功 
能 ， 容 易学 习 和 使 用 ， 并 且 成 熟 稳定 。 






































1.4 Spark 简 史 


Spark 是 由 一 个 强大 而 活跃 的 开源 社区 开发 和 维护 的 ， 社 区 中 的 开发 者 们 来 自 许 许多 多 不 
同 的 机 构 。 如 果 你 或 者 你 所 在 的 机 构 是 第 一 次 尝试 使 用 Spark， 也 许 你 会 对 Spark 这 个 项 
目的 历史 感 兴趣 。Spark 是 于 2009 年 作为 一 个 研究 项 目 在 加 州 大 学 伯克利 分 校 RAD 实验 
室 (AMPLab 的 前 身 ) 诞生 。 实 验 室 中 的 一 些 研究 人 员 曾 经 用 过 Hadoop MapReduce。 他 
们 发 现 MapReduce 在 迭代 计算 和 交互 计算 的 任务 上 表现 得 效率 低下 。 因 此 ，Spark 从 一 开 
始 就 是 为 交互 式 查 询 和 迭代 算法 设计 的 ， 同 时 还 支持 内 存 式 存 储 和 高 效 的 容错 机 制 。 


2009 年 ， 关 于 Spark 的 研究 论文 在 学 术 会 议 上 发 表 ， 同 年 Spark 项 目 正式 诞生 。 其 后 不 和 久 ， 
相 比 于 MapReduce，Spark 在 某 些 任务 上 已 经 获得 了 10 ~ 20 倍 的 性 能 提升 。 
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Spark 最 早 的 一 部 分 用 户 来 自 加 州 伯克利 分 校 的 其 他 研究 小 组 ， 其 中 比较 著名 的 有 Mobile 
Millennium。 作 为 机 器 学 习 领 域 的 研究 项 目 ， 他 们 利用 Spark 来 监控 并 预测 旧金山 湾 区 
的 交通 拥堵 情况 。 仅 仅 过 了 短 短 的 一 段 时 间 ， 许 多 外 部 机 构 也 开始 使 用 Sparkk。 如 今 ， 
有 超过 50 个 机 构 将 自己 添加 到 了 使 用 Spark 的 机 构 列 表 页 面 (https://cwiki.apache.org/ 
confluence/display/SPARK/Powered+By+Spark)。 在 Spark 社区 如 火 如 茶 的 社区 活动 Spark 
Meetups (http://www.meetup.com/spark-users/) 和 Spark 峰会 (http://spark-summit.org/) 中 ， 
许多 机 构 也 向 大 家 积极 分 享 他 们 特有 的 Spark 应 用 场景 。 除 了 加 州 大 学 伯克利 分 校 ， 对 
Spark 作出 贡献 的 主要 机 构 还 有 Databricks、 雅 虎 以 及 英特尔 。 


























2011 年 ，AMPLab 开始 基于 Spark 开发 更 高 层 的 组 件 ， 比 如 Shark (Spark 上 的 Hive) “和 
Spark Streaming。 这 些 组 件 和 其 他 一 些 组 件 一 起 被 称 为 伯克利 数据 分 析 工 具 栈 (BDAS， 
https://amplab.cs.berkeley.edu/software/) 。 











Spark 最 早 在 2010 年 3 月 开源 ， 并 且 在 2013 年 6 月 交 给 了 Apache 基金 会 ， 现 在 已 经 成 了 
Apache 开源 基金 会 的 顶级 项 目 。 


1.5 ”Spark 的 版 本 和 发 布 


自 基 出 现 以 来 ，Spark 就 一 直 是 一 个 非常 活跃 的 项 目 ，Spark 社区 也 一 直 保 持 着 非常 繁荣 的 
态势 。 随 着 版 本 号 的 不 断 更 迭 ，Spark 的 贡献 者 也 与 日 俱 增 。Spark 1.0 吸引 了 100 多 个 开 
源 程序 员 参 与 开发 。 尽 管 项 目 活跃 度 在 飞速 地 提升 ，Spark 社区 依然 保持 着 常规 的 发 布 新 
版 本 的 节奏 。2014 年 5 月 ，Spark 1.0 正式 发 布 ， 而 本 书 则 主要 关注 Spark 1.1.0 以 及 后 续 
的 版 本 。 不 过 ， 大 多 数 概 念 在 老 版 本 的 Spark 中 依然 适用 ， 而 大 多 数 示例 也 能 运行 在 老 版 
本 的 Spark 上 。 


1.6 ” Spark 的 存储 层次 


Spark 不 仅 可 以 将 任何 Hadoop 分 布 式 文件 系统 (HDFS) 上 的 文件 读 取 为 分 布 式 数据 集 ， 
也 可 以 支持 其 他 支持 Hadoop 接口 的 系统 ， 比 如 本 地 文件 、 亚 马 逊 S3、Cassandra、Hive、 
HBase 等 。 我 们 需要 和 弄 清 楚 的 是 ，Hadoop 并 非 Spark 的 必要 条 件 ，Spark 支持 任何 实现 
了 Hadoop 接口 的 存储 系统 。Spark 支持 的 Hadoop 输入 格式 包括 文本 文件 、SequenceFile、 
Avro、Parquet 等 。 我 们 会 在 第 5 章 讨论 读 取 和 存储 时 详细 介绍 如 何 与 这 些 数 据 源 进行 交互 。 



























































注 1: Shark 已 经 被 Spark SQL 所 取代 。 
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第 2 章 


Spark 下 载 与 入 门 





在 本 章 中， 我 们 会 下 载 Spark 并 在 本 地 模式 下 单机 运行 它 。 本 章 是 写 给 Spark 的 所 有 初学 
者 的 ， 对 数据 科学 家 和 工程 师 来 说 都 值得 一 读 。 
Spark 可 以 通过 Python、Java 或 Scala 来 使 用 。 要 用 好 本 书 不 需要 高 超 的 编程 技巧 , 但 是 确 


实 需要 对 其 中 某 种 语言 的 语法 有 基本 的 了 解 。 我 们 会 尽 可 能 在 示例 中 给 出 全 部 三 种 语言 的 
代码 。 























Spark 本 身 是 用 Scala 写 的 ， 运 行 在 Java 虚拟 机 (JVM) 上 。 要 在 你 的 电脑 或 集群 上 运行 
Spark， 你 要 做 的 准备 工作 只 是 安装 Java 6 或 者 更 新 的 版 本 。 如 果 你 希望 使 用 Python 接口 ， 
你 还 需要 一 个 Python 解释 器 (2.6 以 上 版 本 )。Spark 尚 不 支持 Python 3”。 


2.1 下 载 Spark 


使 用 Spark 的 第 一 步 是 下 载 和 解压 缩 。 我 们 先 从 下 载 预 编译 版 本 的 Spark 开始 。 访 问 http:/ 
spark.apache.org/downloads.html， 选 择 包 类 型 为 “Pre-built for Hadoop 2.4 and later”( 为 
Hadoop 2.4 及 更 新 版 本 预 编 译 的 版 本 )， 然 后 选择 “Direct Download” 直 接 下载 。 这 样 我 们 
就 可 以 得 到 一 个 压缩 的 TAR 文件， 文件 名 为 spark-1.2.0-bin-hadoop2.4.tgz. 

















注 1: Spark 1.4.0 起 添加 了 R 语言 支持 。 
注 2: Spark 1.4.0 起 支持 Python 3。 一 一 译 者 注 














Windows 用 户 如 果 把 Spark 安装 到 带 有 空格 的 路 径 下 ， 可 能 会 遇 到 一 些 问 
题 。 所 以 我 们 需要 把 Spark 安装 到 不 带 空 格 的 路 径 下 ， 比 如 Ci\spark 这 样 的 
目录 中 。 











你 不 需要 安装 Hadoop， 不 过 如 果 你 已 经 有 了 一 个 Hadoop 集群 或 安装 好 的 HDFS， 请 下 
载 对 应 版 本 的 Spark。 你 可 以 在 http://spark.apache.org/downloads.html 里 选择 所 需要 的 包 
类 型 ， 这 会 导致 下 载 得 到 的 文件 名 略 有 不 同 。 也 可 以 选择 从 源 代 码 直接 编译 。 你 可 以 从 
GitHub 上 下 载 最 新 代码 ， 也 可 以 在 下 载 页 面 上 选择 包 类 型 为 “Source Code”( 源 代码 ) 进 
行 下 载 。 








大 多 数 类 Unix 系统 ， 包 括 OSX 和 Linux， 都 有 一 个 叫 tar 的 命令 行 工 具 ， 
可 以 用 来 解压 TAR 文件 。 如 果 你 的 操作 系统 没有 安装 tar， 可 以 尝试 搜索 网 
络 获 取 免 费 的 TAR 解压 缩 工具 。 比 如 ， 如 果 你 使 用 的 是 Windows， 可 以 试 
一 下 7-Zip. 





下 载 好 了 Spark 之 后 ， 我 们 要 进行 解压 缩 ， 然 后 看 一 看 默认 的 Spark 发 行 版 中 都 有 些 什么 。 
打开 终端 ， 将 工作 路 径 转 到 下 载 的 Spark 压缩 包 所 在 的 目录 ， 然 后 解 开 压缩 包 。 这 样 会 创 
建 出 一 个 和 压缩 包 同 名 但 是 没 了 .tgz 后 级 的 新 文件 夹 。 接 下 来 我 们 就 把 工作 路 径 转 到 这 个 
新 目录 下 看 看 里 面 都 有 些 什么 。 上 面 这 些 步 又 可 以 用 如 下 命令 完成 : 

cd~ 

tar -xf spark-1.2.0-bin-hadoop2.4.tgz 

cd spark-1.2.0-bin-hadoop2.4 

ls 
在 tar 命令 所 在 的 那 一 行 中 ，x 标记 指定 tar 命令 执行 解压 缩 操作 ，f 标记 则 指定 压缩 包 的 
文件 名 。1s 命令 列 出 了 Spark 目录 中 的 内 容 。 我 们 先 来 粗略 地 看 一 看 Spark 目录 中 的 一 些 
比较 重要 的 文件 及 目录 的 名 字 和 作用 。 























。 README.md 
包含 用 来 入 门 Spark 的 简单 的 使 用 说 明 。 

。 bin 
包含 可 以 用 来 和 Spark 进行 各 种 方式 的 交互 的 一 系列 可 执行 文件 ， 比 如 本 章 稍 
的 Spark shell。 





起 
bl 


会 讲 到 











。 core、 streaming、python……: 
。 包含 Spark 项 目 主要 组 件 的 源 代码 。 
。 examples 


包含 一 些 可 以 查看 和 运行 的 Spark 程序 ， 对 学 习 Spark 的 API 非常 有 帮助 。 




















不 要 被 Spark 项 目 数量 庞 大 的 文件 和 复杂 的 目录 结构 吓 倒 ， 我 们 会 在 本 书 接 下 来 的 部 分 中 
讲解 它们 中 的 很 大 一 部 分 。 就 目前 来 说 ， 我 们 还 是 按部就班 ， 先 来 试 试 Spark 的 Python 和 
Scala 版 本 的 shell。 让 我 们 从 运行 一 些 Spark 自 带 的 示例 代码 开始 ， 然 后 再 编写 、 编 译 并 运 
行 一 个 我 们 自己 简易 的 Spark 程序 。 


本 章 我 们 所 做 的 一 切 ，Spark 都 是 在 本 地 模式 下 运行 ， 也 就 是 非 分 布 式 模式 ， 这 样 我 们 
只 需要 用 到 一 台 机 器 。Spark 可 以 运行 在 许多 种 模式 下 ， 除 了 本 地 模式 ， 还 支持 运行 在 
Mesos 或 YARN 上 ， 也 可 以 运行 在 Spark 发 行 版 自 带 的 独立 调度 器 上 。 我 们 会 在 第 7 章 详 
细 讲 述 各 种 部 署 模式 。 











2.2 Spark 中 Python 和 Scala 的 shell 


Spark 带 有 交互 式 的 shell， 可 以 作 即 时 数据 分 析 。 如 果 你 使 用 过 类 似 R、Python、Scala 所 
提供 的 shell， 或 操作 系统 的 shell (例如 Bash 或 者 Windows 中 的 命令 提示 符 )， 你 也 会 对 
Spark shell 感到 很 熟悉 。 然 而 和 其 他 shell 工具 不 一 样 的 是 ， 在 其 他 shell 工具 中 你 只 能 使 
用 单机 的 硬盘 和 内 存 来 操作 数据 ， 而 Spark shell 可 用 来 与 分 布 式 存储 在 许多 机 器 的 内 存 或 
者 硬盘 上 的 数据 进行 交互 ， 并 且 处 理 过 程 的 分 发 由 Spark 自动 控制 完成 。 


由 于 Spark 能 够 在 工作 节点 上 把 数据 读 取 到 内 存 中 ， 所 以 许多 分 布 式 计算 都 可 以 在 几 秒 钟 
之 内 完成 ， 哪 怕 是 那 种 在 十 几 个 节点 上 处 理 TB 级 别 的 数据 的 计算 。 这 就 使 得 一 般 需 要 在 
shell 中 完成 的 那些 交互 式 的 即时 探索 性 分 析 变 得 非常 适合 Spark。Spark 提供 Python 以 及 
Scala 的 增强 版 shell， 支 持 与 集群 的 连接 。 












































本 书 中 大 多 数 示例 代码 都 包含 Spark 支持 的 所 有 语言 版 本 ， 但 是 交互 式 shell 
部 分 只 提供 了 Python 和 Scala 版 本 的 示例 。shell 对 于 学 习 API 是 非常 有 帮助 
的 ， 因 此 我 们 建议 读者 在 Python 和 Scala 版 本 的 例子 中 选择 一 种 进行 尝试 ， 
即便 你 是 Java 开发 者 也 是 如 此 ， 毕 竞 各 种 语言 的 API 是 相似 的 。 




















展示 Spark shell 的 强大 之 处 最 简单 的 方法 就 是 使 用 某 个 语言 的 shell 作 一 些 简单 的 数据 分 
析 。 我 们 一 起 按照 Spark 官方 文档 中 的 快速 入 门 指南 (http://spark.apache.org/docs/latest/ 
quick-start.html) 中 的 示例 来 做 一 遍 。 


第 一 步 是 打开 Spark shell。 要 打开 Python 版 本 的 Spark shell， 也 就 是 我 们 所 说 的 PySpark 
Shell， 进 入 你 的 Spark 目录 然后 输入 : 


bin/pyspark 


~ 


在 Windows 中 则 运行 bin\pyspark。) 如 果 要 打开 Scala 版 本 的 shell， 输入: 





bin/spark-shell 
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稍 等 数秒 ，shell 提示 符 就 会 出 现 。Shell 启动 时 ， 你 会 
EE 志 ， 我 们 需要 按 一 下 回 车 键 ， 来 得 到 
2-1 是 PySpark shell 启动 时 的 样子 。 











看 到 许多 日 志 信 息 输 出 





有 的 时 候 ， 
一 个 清楚 的 shell 提示 符 。 





holden@hmbp2: -/Downloads/spark-1.1.0.binhadoop1 holden@hmbp2: ~/Downloads/spark-1.1.0-binhadoop1 
holden@hmbp2:~/Downloads/spark-1.1.0-bin-hadoop1$ ./bin/pyspark 

Python 2.7.6 (default, Mar 22 2814, 22:59:56) 

[GCC 4.8.2] on Linux2 

Type "help", "copyright", "credits" or 
Spark assembly has been built with Hive 
Using Spark's default 10g4j profile 


x x holden@hmbp2: ~ 





"license” for more information. 
including Datanucleus jars on classpath 
org/apache/spark/log4j-defaults.properties 
33:49 WARN Utils: Your hostname, hmbp2 resolves to a loopback address: 127.0.1.1; using 172.1 
33:49 WARN Utils: Set SPARK LOCAL IP if you need to bind to another address 
33:49 INF0 SecurityManager: Changing view acls to: holden 
: ger: Changing modify acts to: hotden 
14/11/19 14:33:49 INF0 SecurityManager: SecurityManager: authentication disabled 
; users with modify permissions: Set(hotden，) 
14/11/19 14:33:49 INFO SLf4jLogger: SLf4jLogger started 
14/11/19 INFO Remoting: Starting remoting 
14/11/19 INFO Remoting: Remoting started; listening on addresses :[akka.tc 
14/11/19 INFO Remoting: Remoting now listens on addresses: [akka.tcp://sparkDriver@172.17.42.1:;3 
14/11/19 INFO Utils: Successfully started service 'sparkDriver' on port 35021. 
14/11/19 INF0 SparkEnv: Registering MapOutputTracker 
14/11/19 INF0 SparkEnv: Registering BlockManagerMaster 
14/11/19 INF0 DiskBlockManager; Created local directory at /tmp/spark-local-20141119143349-5776 
14/11/19 INFO Utils: Successfully started service 'Connection manager for block manager' on port 
14/11/19 INFO ConnectionManager: Bound socket to port 57218 with id = ConnectionManagerId(172.17 
14/11/19 INFO MemoryStore: MemoryStore started with capacity 265.4 MB 
14/11/19 INFO BlockManagerMaster: Trying to register BlockManager 
14/11/19 INFO BlockManagerMasterActor: Registering block manager 172.17.42.1:57218 with 265.4 MB 
14/11/19 INFO BlockManagerMaster: Registered BlockManager 
14/11/19 INFO HttpFileServer: HTTP File server directory is /tmp/spark-399c53ec-0Qbe8-4043-9a7d-9: 
INFO HttpServer: Starting HTTP Server 
INFO Utils: Successfully started service 
INFO Utils: Successfully started service "SparkUT” on port 4649 
INFO SparkUI: Started SparkUI at http://172.17.42.1:40640 
INFO AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@172.17.42.1:350 


ui acls disabled; Users 


14: 
14; 
14: 
14: 
14: 
14: 
1 

14: 
14: 
14: 
14 

14: 
14: 


"HTTP file server' on port 49008. 


SR A 


version 1.1.9 


Using Python version 2.7.6 (default, 
SparkContext available as sc. 


> | 


Mar 22 2014 22:59:56) 





/VsparkDriverG@172.17. 


JDownloads/spark-1.1.0-bir-hadoop1 


7.42.1 instead (on interface dockerg9) 


with view permissions: Set(holden, ) 


42.1:35021] 
5021] 


57218 
42.1,57218) 


RAM 


345e970576d 


21/user/HeartbeatReceiver 











默认 日 志 选 项 下 的 PySpark shell 


如 果 觉 得 shell 中 输出 的 日 志 信 息 过 多 而 使 人 分 心 ， 可 以 调整 日 ; 
息 量 。 你 需要 在 conf 目录 下 创建 一 个 名 为 log4j.properties 的 文 从 


志 的 级 别 来 控制 输 吕 LI H 的 信 








来 管理 日 志 设 置 。Spark 


开发 者 们 已 经 在 Spark 中 加 入 了 一 个 日 志 设 置 文件 的 模版 ， 叫 作 log4j.properties.template。 


要 让 日 志 看 起 来 不 那么 喝 嗪 ， 可 以 先 把 这 个 
properties 来 作为 日 志 设 置 文件 ， 接 下 来 找到 下 面 这 一 行 





UL 


log4j.rootCategory=INFO, console 





过 下 面 的 设 定 降低 日 志 级 别 ， 只 显示 警告 及 更 严重 的 信息 








然后 通 





log4j.rootCategory=WARN, console 


这 时 再 打开 shell， 你 就 会 看 到 输出 大 大 减少 





图 2-2)。 


日 志 设 置 模版 文件 复制 一 


份 到 conflog4j. 








x holden@hmbpz: -/Downloads/spark1.1.0binhadoop1 x holden@hmbp2: ~/repos/1230000000573 
rk-1.1.0-bin-hadoopl$ ./bin/pyspark 
14, 22:59:56) 


"copyright", "credits" or "license" for more information. 


mbUy has bean bultt with Hive，inctuding Datanucteus jars on cLasspath 
14711/19 14:38:63 WARN Utils: Your hostname, hmbp2 resolves to a Loopback address: 127.0.1.1; using 172.17.42.1 instead (on interface dockerg 
14/11/19 14:38:03 WARN Utils: Set SPARK LOCAL IP if you need to bind to another address 
Welcome to 


于 

By A 

关 WN NN Verslion Tl: 
yal 


Using Python version 2.7.6 (default, Mar 22 2014 22:59:56) 
SparkContext available as sc, 














2-2: 降低 日 志 级 别 后 的 PySpark shell 





使 用 IPython 

IPython 是 一 个 受 许多 Python 使 用 者 喜爱 的 增强 版 Python shell， 能 够 提供 自 
动 补 全 等 好 用 的 功能 。 你 可 以 在 http://ipython.org 上 找到 安装 说 明 。 只 要 把 
环境 变量 IPYTHON 的 值 设 为 1， 你 就 可 以 使 用 IPython 了 : 











IPYTHON=1 ./bin/pyspark 

要 使 用 IPython Notebook， 也 就 是 Web 版 的 IPython， 可 以 运行 : 
IPYTHON_OPTS="notebook" ./bin/pyspark 

在 Windows 上 ， 像 下 面 这 样 设置 环境 变量 并 运行 命令 行 : 


set IPYTHON=1 
bin\pyspark 











简称 RDD。RDD 是 Spark 对 分 布 式 数 据 和 计算 的 基本 抽象 。 











在 Spark 中 ， 我 们 通过 对 分 布 式 数据 集 的 操作 来 表达 我 们 的 计算 意图 ， 这 些 计算 会 自动 地 
在 集群 上 并 行进 行 。 这 样 的 数据 集 被 称 为 弹性 分 布 式 数据 集 (resilient distributed dataset)， 





在 我 们 更 详细 地 讨论 RDD 之 前 ， 先 来 使 用 shell 从 本 地 文本 文件 创建 一 个 RDD 来 作 一 些 
简单 的 即时 统计 。 例 2-1 是 Python 版 的 例子 ， 例 2-2 是 Scala 版 的 。 
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例 2-1: Python 行 数 统计 
>>> lines = sc.textFile("README.md") # 创建 一 个 名 为 Lines 的 RDD 





>>> Lines.count() # 统计 RDD 中 的 元 素 个 数 

127 

>>> Lines.first() # 这 个 RDD 中 的 第 一 个 元 素 ,也 就 是 README .md 的 第 一 行 
U'# Apache Spark' 


例 2-2: Scala 行 数 统计 
scala> val Lines = sc.textFile("README.md") // 创建 一 个 名 为 Lines 的 RDD 
Lines: spark.RDD[String] = MappedRDD[...] 


scala> lines.count() // 统计 RDD 中 的 元 素 个 数 
res0: Long = 127 


scala> lines.first() // 这 个 RDD 中 的 第 一 个 元 素 , 也 就 是 README .md 的 第 一 行 
res1: String = # Apache Spark 


要 退出 任 一 shell， 按 Ctrl-D。 
你 可 能 在 日 志 的 输出 中 注意 到 了 这 样 一 行 信息 : INFO SparkUI: Started 


SparkUI at http://[ipaddress]:4040。 你 可 以 由 这 个 地 址 访问 Spark 用 户 界 
面 ， 查 看 关于 任务 和 集群 的 各 种 信息 。 我 们 会 在 第 7 章 中 详细 讨论 。 














在 例 2-1 和 例 2-2 中 ， 变 量 Lines 是 一 个 RDD， 是 从 你 电脑 上 的 一 个 本 地 的 文本 文件 创建 
出 来 的 。 我 们 可 以 在 这 个 RDD 上 运行 各 种 并 行 操作 ， 比 如 统计 这 个 数据 集中 的 元 素 个 数 
(在 这 里 就 是 文本 的 行 数 ) ， 或 者 是 输出 第 一 个 元 素 。 我 们 会 在 后 续 章 节 中 深入 探讨 RDD。 
在 此 之 前 ， 让 我 们 先 花 些 时 间 来 了 解 Spark 的 基本 概念 。 





2.3 _ Spark 核心 概念 简介 

现在 你 已 经 用 shell 运行 了 你 的 第 一 段 Spark 程序 ， 是 时 候 对 Spark 编程 作 更 细致 的 了 解 了 。 
从 上 层 来 看 ， 每 个 Spark 应 用 都 由 一 个 驱动 器 程序 (driver program) 来 发 起 集群 上 的 各 种 
并 行 操 作 。 驱 动 器 程序 包含 应 用 的 main 函数 ， 并 且 定 义 了 集群 上 的 分 布 式 数据 集 ， 还 对 这 
些 分 布 式 数据 集 应 用 了 相关 操作 。 在 前 面 的 例子 里 ， 实 际 的 驱动 器 程序 就 是 Spark shell 本 
身 ， 你 只 需要 输入 想 要 运行 的 操作 就 可 以 了 。 











驱动 器 程序 通过 一 个 SparkContext 对 象 来 访问 Spark。 这 个 对 象 代表 对 计算 集群 的 一 个 连 
接 。shell 启动 时 已 经 自动 创建 了 一 个 SparkContext 对 象 ， 是 一 个 叫 作 sc 的 变量 。 我 们 可 
以 通过 例 2-3 中 的 方法 尝试 输出 sc 来 查看 它 的 类 型 。 





例 2-3: 查看 变量 sc 
>>> SC 
<pyspark.context.SparkContext object at 0x1025b8f90> 





一 旦 有 了 SparkContext， 你 就 可 以 用 它 来 创建 RDD。 在 例 2-1 和 例 2-2 中 ， 我 们 调用 了 
sc.textFile() 来 创建 一 个 代表 文件 中 各 行文 本 的 RDD。 我 们 可 以 在 这 些 行 上 进行 各 种 操 
作 ， 比 如 count()。 




















要 执行 这 些 操 作 ， 驱 动 器 程序 一 般 要 管理 多 个 执行 器 (executor) 节点 。 比 如 ， 如 果 我 们 在 
集群 上 运行 count() 操作 ， 那 么 不 同 的 市 点 会 统计 文件 的 不 同 部 分 的 行 数 。 由 于 我 们 刚才 是 
在 本 地 模式 下 运行 Spark shell， 因 此 所 有 的 工作 会 在 单个 市 点 上 执行 ， 但 你 可 以 将 这 个 shell 
连接 到 集群 上 来 进行 并 行 的 数据 分 析 。 图 2-3 展示 了 Spark 如 何在 一 个 集群 上 运行 。 






















































驱动 器 程序 | 


SparkContext 


;. EE 














2-3: Spark 分 布 式 执行 涉及 的 组 件 

最 后 ， 我 们 有 很 多 用 来 传递 函数 的 API， 可 以 将 对 应 操作 运行 在 集群 上 。 比 如 ， 可 以 扩展 
我 们 的 README 示例 ， 笋 选 出 文件 中 包含 某 个 特定 单词 的 行 。 以 “Python” 这 个 单词 为 
例 ， 具 体 代 码 如 例 2-4 (Python 版 本 ) 和 例 2-5 (Scala 版 本 ) 所 示 。 








例 2-4: Python 版 本 筛选 的 例子 


>>> Lines = sc.textFile("README.md") 
>>> pythonLines = lines.filter(lambda line: "Python" in Line) 


>>> pythonLines.first() 
U'# 扫 Interactive Python Shell' 


例 2-5: Scala 版 本 筛选 的 例子 
scala> val lines = sc.textFile("README.md") // 创建 一 个 叫 Lines 的 RDD 
Lines: spark.RDD[String] = MappedRDD[...] 





scala> val pythonLines = lines.filter(line => line.contains("Python")) 





Spark 下 载 与 入 门 | 13 


pythonLines: spark.RDD[String] = FilteredRDD[...] 


scala> pythonLines.first() 
res0: String = ## Interactive Python Shell 





向 Spark 传递 函数 

如 果 你 对 例 2-4 和 例 2-5 中 的 Lambda 或 者 => 语法 不 式 悉 ， 可 以 把 它们 理解 为 Python 
和 Scala 中 定义 内 联 函 数 的 简写 方法 。 当 你 在 这 些 语 言 中 使 用 Spark 时 ， 你 也 可 以 单独 
定义 一 个 也 数 ， 然 后 把 函数 名 传 给 Spark。 上 比如， 在 Python 中 可 以 这 样 做 : 

def hasPython(Line) : 

return "Python” in line 

pythonLines = lines.filter(haspython) 
在 Java 中 向 Spark 传递 济 数 也 是 可 行 的 ， 但 是 在 这 种 情况 下 ,我们 必须 把 溃 数 定义 为 
实现 了 Function 接口 的 类 。 例 如 : 


JavaRDD<String> pythonLines = lines.filter( 
new Function<String, Boolean>() { 
Boolean call(String line) { return line.contains("Python"); } 
} 
)3 


Java 8 提供 了 类 似 Python 和 Scala 的 lambda 简写 语法 。 下 面 就 是 一 个 使 用 这 种 语法 的 
代码 的 例子 : 


JavaRDD<String> pythonLines = lines.filter(line -> line.contains("Python")); 


我 们 会 在 3.4 节 更 深入 地 讨论 如 何 向 Spark 传递 函数 。 














尽管 后 面 会 更 详细 地 讲述 Spark API， 我 们 还 是 不 得 不 感叹 ， 其 实 Spark API 最 神奇 的 地 方 
就 在 于 像 filter 这 样 基于 函数 的 操作 也 会 在 集群 上 并 行 执 行 。 也 就 是 说 ，Spark 会 自动 将 
函数 (比如 Line.contains("Python")) 发 到 各 个 执行 器 节点 上 。 这 样 ， 你 就 可 以 在 单一 的 
驱动 器 程序 中 编程 ， 并 且 让 代码 自动 运行 在 多 个 节点 上 。 第 3 章 会 详细 讲述 RDD API。 


2.4 独立 应 用 


我 们 的 Spark 概览 中 的 最 后 一 部 分 就 是 如 何在 独立 程序 中 使 用 Spark。 除 了 交互 式 运 行 之 
外 ，Spark 也 可 以 在 Java、Scala 或 Python 的 独立 程序 中 被 连接 使 用 。 这 与 在 shell 中 使 用 
的 主要 区 别 在 于 你 需要 自行 初始 化 SparkContext。 接 下 来 ， 使 用 的 API 就 一 样 了 。 






























































连接 Spark 的 过 程 在 各 语言 中 并 不 一 样 。 在 Java 和 Scala 中， 只 需要 给 你 的 应 用 添加 一 
个 对 于 spark-core 工件 的 Maven 依赖 。 编 写 此 书 时 ，Spark 的 最 新 版 本 是 1.2.0， 对 应 的 
Maven 索引 是 : 
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条 2 和 章 





groupId = org.apache.spark 
artifactId = spark-core 2.10 
version = 1.2.0 


Maven 是 一 个 流行 的 包 管 理工 具 ， 可 以 用 于 任何 基于 Java 的 语言 ， 让 你 可 以 连接 公共 仓库 
中 的 程序 库 。 可 以 使 用 Maven 来 构建 你 的 工程 ， 也 可 以 使 用 其 他 能 够 访问 Maven 仓库 的 
工具 来 进行 构建 ， 包 括 Scala 的 sbt 工具 或 者 Gradle 工具 。 一 些 常用 的 集成 开发 环境 ( 比 
如 Eclipse) 也 可 以 让 你 直接 把 Maven 依赖 添加 到 工程 中 。 























在 Python 中 ， 你 可 以 把 应 用 写成 Python 脚本 ,但 是 需要 使 用 Spark 自 带 的 bin/spark- 
submit 脚本 来 运行 。spark-submit 脚本 会 帮 有 我 们 引入 Python 程序 的 Spark 依赖 。 这 个 脚本 
为 Spark 的 PythonAPI 配置 好 了 运行 环境 。 你 只 需要 像 例 2-6 所 示 的 那样 运行 脚本 即 可 。 











让 





例 2-6: 运行 Python 脚本 
bin/spark-submit my_script.py 


(注意 ， 在 Windows 上 需要 使 用 反 斜 杠 来 代替 斜 杠 。) 





2.4.1 初始 化 SparkContext 

一 旦 完成 了 应 用 与 Spark 的 连接 ， 接 下 来 就 需要 在 你 的 程序 中 导入 Spark 包 并 且 创 建 
SparkContext。 你 可 以 通过 先 创建 一 个 SparkConf 对 象 来 配置 你 的 应 用 ， 然 后 基于 这 个 
SparkConf 创建 一 个 SparkContext 对 象 。 在 例 2-7 至 例 2-9 中 ， 我 们 用 各 种 语言 分 别 示范 了 
这 一 过 程 。 





例 2-7: 在 Python 中 初始 化 Spark 
from pyspark import SparkConf, SparkContext 


conf = SparkConf().setMaster("local").setAppName("My App") 
sc = SparkContext(conf = conf) 


例 2-8: 在 Scala 中 初始 化 Spark 


import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 


val conf = new SparkConf().setMaster("local").setAppName("My App") 
val sc = new SparkContext(conf) 


例 2-9: 在 Java 中 初始 化 Spark 
import org.apache.spark.SparkConf; 


import org.apache.spark.api.java.JavaSparkContext; 


SparkConf conf = new SparkConf().setMaster("local").setAppName("My App"); 
JavaSparkContext sc = new JavaSparkContext(conf); 





Spark 下 载 与 入 门 | 15 


这 些 例子 展示 了 创建 SparkContext 的 最 基本 的 方法 ， 你 只 需 传递 两 个 参数 : 

。 集群 URL: 告诉 Spark 如 何 连 接 到 集群 上 。 在 这 几 个 例子 中 我 们 使 用 的 是 local， 这 个 
特殊 值 可 以 让 Spark 运行 在 单机 单线 程 上 而 无 需 连接 到 集群 。 

。 应 用 名 : 在 例子 中 我 们 使 用 的 是 My App。 当 连接 到 一 个 集群 时 ， 这 个 值 可 以 帮助 你 在 
集群 管理 器 的 用 户 界面 中 找到 你 的 应 用 。 


















































还 有 很 多 附加 参数 可 以 用 来 配置 应 用 的 运行 方式 或 添加 要 发 送 到 集群 上 的 代码 。 我 们 会 在 
本 书 的 后 续 章 节 中 介绍 。 








在 初始 化 SparkContext 之 后 ， 你 可 以 使 用 我 们 前 面 展 示 的 所 有 方法 (比如 利用 文本 文件 ) 
来 创建 RDD 并 操控 它们 。 





最 后 ， 关 闭 Spark 可 以 调用 SparkContext 的 stop() 方法 ， 或 者 直接 退出 应 用 (比如 通过 
System.exit(0) 或 者 sys.exit())。 





这 个 快速 概览 应 该 已 经 足够 让 你 在 电脑 上 运行 一 个 独立 的 Spark 应 用 了 。 如 果 要 了 人 解 更 高 
级 的 配置 选项 ， 第 7 章 会 讲 到 如 何 让 你 的 应 用 连接 到 一 个 集群 上 ， 包 括 将 你 的 应 用 打包 ， 
使 得 代码 可 以 自动 发 送 到 工作 节点 上 。 就 目前 而 言 ， 参 萎 Spark 官方 文档 的 快速 入门 指南 
(http://spark.apache.org/docs/latest/quick-start.html) 就 足够 了 。 








2.4.2 ”构建 独立 应 用 

作为 一 本 讲 大 数据 的 书 ， 如 果 没 有 一 个 单词 数 统计 的 例子 ， 就 不 能 成 其 为 完整 的 一 章 。 在 
单机 上 实现 单词 数 统计 很 容易 ， 但 在 分 布 式 框架 下 ， 由 于 要 在 许多 工作 节点 上 读 入 并 组 合 
数据 ， 单 词 数 统计 就 成 了 一 个 很 常用 的 例子 。 下 面 我 们 来 学 习 用 sbt 以 及 Maven 来 构建 并 
打包 一 个 简单 的 单词 数 统计 的 例 程 。 我 们 可 以 把 所 有 的 例 程 构建 在 一 起 ， 但 是 为 了 展示 最 
简单 的 构建 过 程 ， 我 们 只 保留 了 最 基本 的 依赖 。 在 learning-spark-examples/mini-complete- 
example 目录 下 ， 你 可 以 找到 这 样 一 个 独立 的 小 工程 。Java 版 本 ( 例 2-10) 和 Scala 版 本 
( 例 2-11) 的 例子 分 别 如 下 所 示 。 


例 2-10: Java 版 本 的 单词 数 统计 应 用 (暂时 不 需要 深究 细节 ) 

// 创建 一 个 Java 版 本 的 Spark Context 
SparkConf conf = new SparkConf().setAppName("wordCount"); 
JavaSparkContext sc = new JavaSparkContext(conf); 
// 读 取 我 们 的 输入 数据 
JavaRDD<String> input = sc.textFile(inputFile); 
// 切 分 为 单词 
JavaRDD<String> words = input.fLatMap( 

new FlatMapFunction<String, String>() { 

public IterabLe<String> call(String x) { 
return Arrays.asList(x.split(" ")); 


}}); 
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// 转换 为 键 值 对 并 计数 
JavaPairRDD<String, Integer> counts = words.mapToPair( 
new PairFunction<String, String, Integer>(){ 
public Tuple2<String, Integer> call(String x){ 
return new Tuple2(x, 1); 
}}).reduceByKey(new Function2<Integer, Integer, Integer>(){ 
public Integer call(Integer x, Integer y){ return x + y;}}); 

// 将 统计 出 来 的 单词 总 数 存 和 一 个 文本 文件 ,引发 求 值 


counts.saveAsTextFile(outputrile); 


例 2-11: Scala 版 本 的 单词 数 统计 应 用 (暂时 不 需要 深究 细节 ) 
// 创建 一 个 Scala 版 本 的 Spark Context 
val conf = new SparkConf().setAppName("wordCount") 
val sc = new SparkContext(conf) 
// 读 取 我 们 的 输入 数 扩 
val input = sc.textFile(inputFile) 
// 把 它 切 分 成 一 个 个 单词 
val words = input.flatMap(line => line.split(" ")) 
// 转换 为 键 值 对 并 计数 
val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y} 
// 将 统计 出 来 的 单词 总 数 存 和 一 个 文本 文件 ,引发 求 值 


counts.saveAsTextFile(outputFile) 


mH 








我 们 可 以 使 用 非常 简单 的 sbt ( 例 2-12) 或 Maven ( 例 2-13) 构建 文件 来 构建 这 些 应 用 。 
由 于 Spark Core 包 已 经 在 各 个 工作 节点 的 classpath 中 了 ， 所 以 我 们 把 对 Spark Core 的 依赖 
标记 为 provided， 这 样 当 我 们 稍 后 使 用 assembly 方式 打包 应 用 时 ， 就 不 会 把 spark-core 
包 也 打包 到 assembly 包 中 。 

















例 2-12: sbt 构建 文件 


name := "learning-spark-mini-example" 
version := "0.0.1" 
scalaVersion := "2.10.4" 


// 附加 程序 库 
libraryDependencies ++= Seq( 
"org.apache.spark" %% "spark-core" % "1.2.0" % "provided" 


) 
例 2-13: Maven 构建 文件 


<project> 
<groupId>com.oreilly.learningsparkexamples.mini</groupId> 
<artifactId>learning-spark-mini-example</artifactId> 
<modelVersion>4.0.0</modelVersion> 
<name>example</name> 
<packaging>jar</packaging> 
<version>0.0.1</version> 
<dependencies> 
<dependency> <!-- Spark 依 赖 --> 
<groupId>org.apache.spark</groupId> 
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<artifactId>spark-core_2.10</artifactId> 
<version>1.2.0</version> 
<scope>provided</scope> 
</dependency> 
</dependencies> 
<properties> 
<java.version>1.6</java.version> 
</properties> 
<build> 
<pluginManagement> 
<plugins> 
<pLugin> <groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler-plugin</artifactId> 
<version>3.1</version> 
<configuration> 
<source>${java.version}</source> 
<target>${java.version}</target> 
</configuration> </plugin> </plugin> 
</plugins> 
</pluginManagement> 
</build> 
</project> 


spark-core 包 被 标记 为 了 provided， 这 是 为 了 控制 我 们 以 assembly 方式 打包 
应 用 时 的 行为 。 第 7 章 中 会 详细 讨论 这 个 细节 。 





一 旦 敲定 了 构建 方式 ， 我 们 就 可 以 轻松 打包 并 且 使 用 bin/spark-submit 脚本 执行 我 们 的 


应 用 了 。spark-submit 脚本 可 以 为 我 们 配置 Spark 所 要 用 到 的 一 系列 环境 变量 。 在 mini- 
complete-example 目录 中 ， 我 们 可 以 使 用 Scala ( 例 2-14) 或 者 Java ( 例 2-15) 进行 构建 。 








例 2-14: Scala 构建 与 运行 
sbt clean package 
SSPARK_HONME/bin/spark-submit \ 
--Class com.oreilly.learningsparkexamples.mini.scala.WordCount \ 
./target/... (as above) \ 
./README .md ./wordcounts 


例 2-15: Maven 构建 与 运行 
mvn clean && mvn compile && mvn package 
SSPARK_HONME/bin/spark-submit \ 
--Class com.oreilly.learningsparkexamples.mini.java.WordCount \ 
./target/learning-spark-mini-example-0.0.1.jar \ 
./README .md ./wordcounts 





要 了 解 关 于 连接 应 用 程序 到 Spark 的 更 多 例子 ， 请 参考 Spark 官方 文档 中 的 快速 入 门 指南 
(http://spark.apache.org/docs/latest/quick-start.html) 一 节 。 第 7 章 中 也 会 更 详细 地 讲解 如 何 


打包 Spark 应 用 。 





2.5 总结 


在 本 章 中 ， 我 们 讲 到 了 下 载 并 在 单机 的 本 地 模式 下 运行 Spark， 以 及 Spark 的 使 用 方式 ， 包 
括 交 互 式 方式 和 通过 一 个 独立 应 用 进行 调用 。 另 外 我 们 还 简单 介绍 了 Spark 编程 的 核心 概 
念 : 通过 一 个 驱动 器 程序 创建 一 个 SparkContext 和 一 系列 RDD， 然 后 进行 并 行 操 作 。 在 下 
一 章 中 ， 我 们 将 会 更 加 深入 地 介绍 如 何 操作 RDD。 
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第 3 章 


RDD 编 程 





本 章 介绍 Spark 对 数据 的 核心 抽象 一 一 弹性 分 布 式 数据 集 (Resilient Distributed Dataset， 简 
称 RDD)。RDD 其 实 就 是 分 布 式 的 元 素 集合 。 在 Spark 中 ， 对 数据 的 所 有 操作 不 外 乎 创 
建 RDD、 转 化 已 有 RDD 以 及 调用 RDD 操作 进行 求 值 。 而 在 这 一 切 背 后 ，Spark 会 自动 将 
RDD 中 的 数据 分 发 到 集群 上 ， 并 将 操作 并 行 化 执行 。 


由 于 RDD 是 Spark 的 核心 概念 ， 因 此 数据 科学 家 和 工程 师 都 应 该 读 一 读本 章 。 我 们 强烈 
建议 读者 在 交互 式 shell (参见 2.2 节 ) 中 亲身 尝试 一 些 示 例 。 此 外 ， 本 章 中 的 示例 代码 都 
可 以 在 本 书 的 GitHub 仓库 (https://github.com/databricks/learning-spark) 中 找到 。 











3.1 RDD 基 础 


Spark 中 的 RDD 就 是 一 个 不 可 变 的 分 布 式 对 象 集合 。 每 个 RDD 都 被 分 为 多 个 分 区 ， 这 些 
分 区 运行 在 集群 中 的 不 同 节 点 上 。RDD 可 以 包含 Python、Java、Scala 中 任意 类 型 的 对 象 ， 
甚至 可 以 包含 用 户 自 定义 的 对 象 。 


用 户 可 以 使 用 两 种 方法 创建 RDD: 读 取 一 个 外 部 数据 集 ， 或 在 驱动 器 程序 里 分 发 驱动 器 程 
序 中 的 对 象 集合 (比如 list 和 set)。 我 们 在 本 书 前 面 的 章节 中 已 经 见 过 使 用 SparkContext. 
textFile() 来 读 取 文本 文件 作为 一 个 字符 串 RDD 的 示例 ， 如 例 3-1 所 示 。 
































例 3-1: 在 Python 中 使 用 textFile() 创建 一 个 字符 串 的 RDD 


>>> Lines = sc.textFile("README.md") 


创建 出 来 后 ，RDD 支持 两 种 类 型 的 操作 : 转化 操作 (transformation) 和 行动 操作 
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(action)。 转 化 操作 会 由 一 个 RDD 生成 一 个 新 的 RDD。 例 如 ， 根 据 谓 词 匹 配 情况 盘 选 数 
据 就 是 一 个 常见 的 转化 操作 。 在 我 们 的 文本 文件 示例 中 ， 我 们 可 以 用 篇 选 来 生成 一 个 只 存 
储 包含 单词 Python 的 字符 串 的 新 的 RDD， 如 例 3-2 所 示 。 








例 3-2: 调用 转化 操作 filter() 


>>> pythonLines = lines.filter(lambda line: "Python" in line) 



































另 一 方面 ， 行 动 操作 会 对 RDD 计算 出 一 个 结果 ， 并 把 结果 返回 到 驱动 器 程序 中 ， 或 把 结 
果 存 储 到 外 部 存储 系统 (如 HDFS) 中 。first() 就 是 我 们 之 前 调用 的 一 个 行动 操作 ， 它 
会 返回 RDD 的 第 一 个 元 素 ， 如 例 3-3 所 示 。 

















例 3-3: 调用 first() 行动 操作 
>>> pythonLines.first() 
U'## Interactive Python Shell' 


转化 操作 和 行动 操作 的 区 别 在 于 Spark 计算 RDD 的 方式 不 同 。 虽 然 你 可 以 在 任何 时 候 定 
义 新 的 RDD， 但 Spark 只 会 惰性 计算 这 些 RDD。 它 们 只 有 第 一 次 在 一 个 行动 操作 中 用 到 
时 ， 才 会 真正 计算 。 这 种 策略 刚 开 始 看 起 来 可 能 会 显得 有 些 奇 怪 ， 不 过 在 大 数据 领域 是 很 
有 道理 的 。 比 如 ， 看 看 例 3-2 和 例 3-3， 我 们 以 一 个 文本 文件 定义 了 数据 ， 然 后 把 其 中 包 
含 Python 的 行 筛 选 出 来 。 如 果 Spark 在 我 们 运行 Lines = sc.textFile(...) 时 就 把 文件 中 
所 有 的 行 都 读 取 并 存储 起 来 ， 就 会 消耗 很 多 存储 空间 ， 而 我 们 马上 就 要 筛选 掉 其 中 的 很 多 
数据 。 相 反 , 一 旦 Spark 了 解 了 完整 的 转化 操作 链 之 后 ， 它 就 可 以 只 计算 求 结果 时 真正 需 
要 的 数据 。 事 实 上 ， 在 行动 操作 first() 中 ，Spark 只 需要 扫描 文件 直到 找到 第 一 个 匹配 
的 行为 止 ， 而 不 需要 读 取 整个 文件 。 



































最 后 ， 默 认 情 况 下 ，Spark 的 RDD 会 在 你 每 次 对 它们 进行 行动 操作 时 重新 计算 。 如 果 想 
在 多 个 行动 操作 中 重用 同一 个 RDD， 可 以 使 用 RDD.persist() 让 Spark 把 这 个 RDD 缓存 
下 来 。 我 们 可 以 让 Spark 把 数据 持久 化 到 许多 不 同 的 地 方 ， 可 用 的 选项 会 在 表 3-6 中 列 出 。 
在 第 一 次 对 持久 化 的 RDD 计算 之 后 ，Spark 会 把 RDD 的 内 容 保 存 到 内 存 中 (以 分 区 方式 
存储 到 集群 中 的 各 机 器 上 )， 这 样 在 之 后 的 行动 操作 中 ， 就 可 以 重用 这 些 数 据 了 。 我 们 也 
可 以 把 RDD 缓存 到 磁盘 上 而 不 是 内 存 中 。 默 认 不 进行 持久 化 可 能 也 显得 有 些 奇 怪 ， 不 过 
这 对 于 大 规模 数据 集 是 很 有 意义 的 : 如 果 不 会 重用 该 RDD， 我 们 就 没有 必要 浪费 存储 空 
间 ，Spark 可 以 直接 遍历 一 遍 数据 然后 计算 出 结果 。。 

















在 实际 操作 中 ， 你 会 经 常用 persist() 来 把 数据 的 一 部 分 读 取 到 内 存 中 ， 并 反复 查询 这 着 
分 数据 。 例 如 ， 如 果 我 们 想 多 次 对 README 文件 中 包含 Python 的 行进 行 计算 ， 就 可 以 写 
出 如 例 3-4 所 示 的 脚本 。 




















注 1: 在 任何 时 候 都 能 进行 重 算是 我 们 为 什么 把 RDD 描述 为 “弹性 ”的 原因 。 当 保存 RDD 数据 的 一 台 机 器 
失败 时 ，Spark 还 可 以 使 用 这 种 特性 来 重 算出 丢掉 的 分 区 ， 这 一 过 程 对 用 户 是 完全 透明 的 。 
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例 3-4: 把 RDD 持久 化 到 内 存 中 


>>> pythonLines.persist 


>>> pythonLines.count() 
2 


>>> pythonLines.first() 
U'## Interactive Python Shell' 


总 的 来 说 ， 每 个 Spark 程序 或 shell 会 话 都 按 如 下 方式 工作 。 





(1) 从 外 部 数据 创建 出 输入 RDD。 





(2) 使 用 诸如 fter() 这 样 的 转化 操作 对 RDD 进行 转化 ， 以 定义 新 的 RDD。 

















(3) 告诉 Spark 对 需要 被 重用 的 中 间 结 果 RDD 执行 persist() 操作 。 


(4) 使 用 行动 操作 (例如 count() 和 first() 等 ) 来 触发 一 次 并 行 计算 ，Spark 会 对 计算 进行 
优化 后 再 执行 。 


cache() 与 使 用 默认 存储 级 别 调 用 persist() 是 一 样 的 。 


接 下 来 我 们 会 对 这 几 个 步骤 逐一 详解 ， 并 介绍 Spark 中 常见 的 一 些 RDD 操作 。 


3.2 创建 RDD 


Spark 提供 了 两 种 创建 RDD 的 方式 : 读 取 外 部 数据 集 ， 以 及 在 驱动 器 程序 中 对 一 个 集合 进 
行 并 行 化 。 
创建 RDD 最 简单 的 方式 就 是 把 程序 中 一 个 已 有 的 集合 传 给 SparkContext 的 parallelize() 
方法 ， 如 例 3-5 至 例 3-7 所 示 。 这 种 方式 在 学 习 Spark 时 非常 有 用 ， 它 让 你 可 以 在 shell 中 
快速 创建 出 自己 的 RDD， 然 后 对 这 些 RDD 进行 操作 。 不 过 ， 需 要 注意 的 是 ， 除 了 开发 原 
型 和 测试 时 ， 这 种 方式 用 得 并 不 多 ， 毕 况 这 种 方式 需要 把 你 的 整个 数据 集 先 放 在 一 台 机 器 
的 内 存 中 。 


例 3-5: Python 中 的 parallelize() 方法 


Lines = sc.parallelize(["pandas", "i like pandas"]) 





例 3-6: Scala 中 的 parallelize() 方法 


val lines = sc.parallelize(List("pandas", "i like pandas")) 
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例 3-7: Java 中 的 paraLLeLize() 方法 


JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas", "i like pandas")); 





更 常用 的 方式 是 从 外 部 存储 中 读 取 数据 来 创建 RDD。 人 外 部 数据 集 的 读 取 会 在 第 5 章 详 
细 介 绍 。 不 过 ， 我 们 已 经 接触 了 用 来 将 文本 文件 读 入 为 一 个 存储 字符 串 的 RDD 的 方法 
SparkContext.textFile()， 用 法 如 例 3-8 至 例 3-10 所 示 。 











例 3-8: Python 中 的 textFile() 方法 
Lines = sc.textFile("/path/to/README.md") 


例 3-9: Scala 中 的 textFile() 方法 
val lines = sc.textFile("/path/to/README.md") 


例 3-10: Java 中 的 textFile() 方 法 
JavaRDD<String> lines = sc.textFile("/path/to/README.md"); 


3.3 RDD 操 作 


我 们 已 经 讨论 过 ，RDD 支持 两 种 操作 : 转化 操作 和 行动 操作 。RDD 的 转化 操作 是 返回 一 
个 新 的 RDD 的 操作 ， 比 如 map() 和 filter()， 而 行动 操作 则 是 向 驱 动 器 程序 返回 结果 或 
把 结果 写 和 外 部 系统 的 操作 ， 会 触发 实际 的 计算 ， 比 如 count() 和 first()。Spark 对 待 
转化 操作 和 行动 操作 的 方式 很 不 一 样 ， 因 此 理解 你 正在 进行 的 操作 的 类 型 是 很 重要 的 。 如 
果 对 于 一 个 特定 的 函数 是 属于 转化 操作 还 是 行动 操作 感到 困惑 ， 你 可 以 看 看 它 的 返回 值 类 
型 : 转化 操作 返回 的 是 RDD ， 而 行动 操作 返回 的 是 其 他 的 数据 类 型 。 


3.3.1 转化 操作 

RDD 的 转化 操作 是 返回 新 RDD 的 操作 。 我 们 会 在 3.3.3 市 讲 到 ， 转 化 出 来 的 RDD 是 惰性 
求 值 的 ， 只 有 在 行动 操作 中 用 到 这 些 RDD 时 才 会 被 计算 。 许 多 转化 操作 都 是 针对 各 个 元 
素 的 ， 也 就 是 说 ， 这 些 转化 操作 每 次 只 会 操作 RDD 中 的 一 个 元 素 。 不 过 并 不 是 所 有 的 转 
化 操作 都 是 这 样 的 。 

举 个 例子 ， 假 定 我 们 有 一 个 日 志文 件 log.txt， 内 含有 若干 消息 ， 和 希望 选 出 其 中 的 错误 消息 。 


我 们 可 以 使 用 前 面 说 过 的 转化 操作 filter()。 不 过 这 一 次 ， 我 们 会 展示 如 何 用 Spark 支持 
的 三 种 语言 的 API 分 别 实现 〈 见 例 3-11 至 例 3-13)。 



























































例 3-11: 用 Python 实现 filter() 转化 操作 
inputRDD = sc.textFile("log.txt") 
errorsRDD = inputRDD.filter(lambda x: "error" in x) 


例 3-12: 用 Scala 实现 filter() 转化 操作 


val inputRDD = sc.textFile("log.txt") 
val errorsRDD = inputRDD.filter(line => line.contains("error")) 
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例 3-13: 用 Java 实现 fitter() 转化 操作 
JavaRDD<String> inputRDD = sc.textFile("log.txt"); 
JavaRDD<String> errorsRDD = inputRDD.filter( 
new Function<String, Boolean>() { 
public Boolean call(String x) { return x.contains("error"); } 
} 
]); 


注意 ，filter() 操作 不 会 改变 已 有 的 inputRDD 中 的 数据 。 实 际 上 ， 该 操作 会 返回 一 个 全 新 
的 RDD。inputRDD 在 后 面 的 程序 中 还 可 以 继续 使 用 ， 比 如 我 们 还 可 以 从 中 搜索 别 的 单词 。 
事实 上 ， 要 再 从 inputRDD 中 找 出 所 有 包含 单词 warning 的 行 。 接 下 来 ， 我 们 使 用 另 一 个 转 
化 操作 union() 来 打印 出 包含 error 或 warning 的 行 数 。 下 例 中 用 Python 作 了 示例 ， 不 过 
union() 函数 的 用 法 在 所 有 三 种 语言 中 是 一 样 的 。 


例 3-14: 用 Python 进行 union() 转化 操作 
errorsRDD = inputRDD.filter(lambda x: "error" in x) 
warningsRDD = inputRDD.filter(lambda x: "warning" in x) 
badLinesRDD = errorsRDD.union(warningsRDD) 




















union() 与 filter() 的 不 同 点 在 于 它 操作 两 个 RDD 而 不 是 一 个 。 转 化 操作 可 以 操作 任意 
数量 的 输入 RDD。 





要 获得 与 例 3-14 中 等 价 的 结果 ， 更 好 的 方法 是 直接 筛选 出 要 么 包含 error 要 
么 包含 warning 的 行 ， 这 样 只 对 inputRDD 进行 一 次 筛选 即 可 。 








最 后 要 说 的 是 ， 通 过 转化 操作 ， 你 从 已 有 的 RDD 中 派生 出 新 的 RDD，Spark 会 使 用 谱系 
图 〈lineage graph) 来 记录 这 些 不 同 RDD 之 间 的 依赖 关系 。Spark 需要 用 这 些 信息 来 按 需 
计算 每 个 RDD， 也 可 以 依靠 谱系 图 在 持久 化 的 RDD 丢失 部 分 数据 时 恢复 所 丢失 的 数据 。 
图 3-1 展示 了 例 3-14 中 的 谱系 图 。 



























warningsRDD 
badLinesRDD 


3-1: 日 志 分 析 过 程 中 创建 出 的 RDD 谱系 图 
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3.3.2 ”行动 操作 

我 们 已 经 看 到 了 如 何 通过 转化 操作 从 已 有 的 RDD 创建 出 新 的 RDD， 不 过 有 时 ， 我 们 希望 
对 数据 集 进行 实际 的 计算 。 行 动 操作 是 第 二 种 类 型 的 RDD 操作 ， 它 们 会 把 最 终 求 得 的 结 
果 返 回 到 驱动 器 程序 ， 或 者 写 入 外 部 存储 系统 中 。 由 于 行动 操作 需要 生成 实际 的 输出 ， 它 
们 会 强制 执行 那些 求 值 必须 用 到 的 RDD 的 转化 操作 。 














继续 我 们 在 前 几 章 中 用 到 的 日 志 的 例子 ， 我 们 可 能 想 输出 关于 badLinesRDD 的 一 些 信息 。 
为 此 ， 需 要 使 用 两 个 行动 操作 来 实现 : 用 count() 来 返回 计数 结果 ， 用 take() 来 收集 
RDD 中 的 一 些 元 素 ， 如 例 3-15 至 例 3-17 所 示 。 


例 3-15: 在 Python 中 使 用 行动 操作 对 错误 进行 计数 
print "Input had " + badLinesRDD.count() + " concerning lines" 
print "Here are 10 examples:" 
for line in badLinesRDD.take(10): 
print line 


例 3-16: 在 Scala 中 使 用 行动 操作 对 错误 进行 计数 
printLn("Input had " + badLinesRDD.count() + " concerning lines") 


printLn("Here are 10 examples:") 
badLinesRDD. take(10).foreach(println) 














例 3-17: 在 Java 中 使 用 行动 操作 对 错误 进行 计数 
System.out.println("Input had " + badLinesRDD.count() + " concerning lines") 
System.out.println("Here are 10 examples:") 
for (String line: badLinesRDD.take(10)) { 
System.out.printLn(Line); 


} 
在 这 个 例子 中 ， 我 们 在 驱动 器 程序 中 使 用 take() 获取 了 RDD 中 的 少量 元 素 。 然 后 在 本 地 
遍历 这 些 元 素 ， 并 在 驱动 器 端 打 印 出 来 。RDD 还 有 一 个 collect() 函数 ， 可 以 用 来 获取 整 
个 RDD 中 的 数据 。 如 果 你 的 程序 把 RDD 筛选 到 一 个 很 小 的 规模 ， 并 且 你 想 在 本 地 处 理 
这 些 数 据 时 ， 就 可 以 使 用 它 。 记 住 ， 只 有 当 你 的 整个 数据 集 能 在 单 台 机 器 的 内 存 中 放 得 下 
时 ， 才 能 使 用 cotlect()， 因 此 ，cotlect() 不 能 用 在 大 规模 数据 集 上 。 












































在 大 多 数 情况 下 ，RDD 不 能 通过 collect() 收集 到 驱动 器 进程 中 ， 因 为 它们 一 般 都 很 大 。 
此 时 ， 我 们 通常 要 把 数据 写 到 诸如 HDFS 或 Amazon S3 这 样 的 分 布 式 的 存储 系统 中 。 你 可 
以 使 用 saveAsTextFile()、saveAsSequenceFile(),， 或 者 任意 的 其 他 行动 操作 来 把 RDD 的 
数据 内 容 以 各 种 自 带 的 格式 保存 起 来 。 我 们 会 在 第 5 章 讲解 导出 数据 的 各 种 选项 。 


需要 注意 的 是 ， 每 当 我 们 调用 一 个 新 的 行动 操作 时 ， 整 个 RDD 都 会 从 头 开始 计算 。 要 避 
免 这 种 低 效 的 行为 ， 用 户 可 以 将 中 间 结 果 持 久 化 ， 这 会 在 3.6 节 中 介绍 。 














3.3.3 ”惰性 求 值 

前 面 提 过 ，RDD 的 转化 操作 都 是 惰性 求 值 的 。 这 意味 着 在 被 调用 行动 操作 之 前 Spark 不 会 
开始 计算 。 这 对 新 用 户 来 说 可 能 与 直觉 有 些 相 违 背 之 处 ， 但 是 对 于 那些 使 用 过 诸如 Haskell 
等 国 数 式 语言 或 者 类 似 LINQ 这 样 的 数据 处 理 框架 的 人 来 说 ， 会 有 些 似曾相识 。 


惰性 求 值 意味 着 当 我 们 对 RDD 调用 转化 操作 (例如 调用 map()) 时 ， 操 作 不 会 立即 执行 
相反 ，Spark 会 在 内 部 记录 下 所 要 求 执行 的 操作 的 相关 信息 。 我 们 不 应 该 把 RDD 看 作 存 
放 着 特定 数据 的 数据 集 ， 而 最 好 把 每 个 RDD 当 作 我 们 通过 转化 操作 构建 出 来 的 、 记录 如 
何 计算 数据 的 指令 列表 。 把 数据 读 取 到 RDD 的 操作 也 同样 是 惰性 的 。 因 此 ， 当 我 们 调用 
sc.textFile() 时 ， 数 据 并 没有 读 取 进来 ， 而 是 在 必要 时 才 会 读 取 。 和 转化 操作 一 样 的 是 ， 
读 取 数据 的 操作 也 有 可 能 会 多 次 执行 


















































虽然 转化 操作 是 惰性 求 值 的 ， ee 个 行动 操作 来 强制 
Spark 执行 RDD 的 转化 操作 ， 比 如 使 用 count()。 这 是 一 种 对 你 所 写 的 程序 
进行 部 分 测试 的 简单 方法 。 























Spark 使 用 惰性 求 值 ， 这 样 就 可 以 把 一 些 操作 合并 到 一 起 来 减少 计算 数据 的 步骤 。 在 类 似 
Hadoop MapReduce 的 系统 中 ， 开 发 者 常常 花费 大 量 时 间 考 虑 如 何 把 操作 组 合 到 一 起 ， 以 
减少 MapReduce 的 周期 数 。 而 在 Spark 中 ， 写 出 一 个 非常 复杂 的 映射 并 不 见得 能 比 使 用 很 
多 简单 的 连续 操作 获得 好 很 多 的 性 能 。 因 此 ， 用 户 可 以 用 更 小 的 操作 来 组 织 他 们 的 程序 ， 
这 样 也 使 这 些 操作 更 容易 管理 。 


3.4 回 Spark 传 递 函数 


Spark 的 大 部 分 转化 操作 和 一 部 分 行动 操作 ， 都 需要 依赖 用 户 传递 的 函数 来 计算 。 在 我 们 
支持 的 三 种 主要 语言 中 ， 向 Spark 传递 函数 的 方式 略 有 区 别 。 

















3.4.1 Python 

在 Python 中 ， 我们 有 三 种 方式 来 把 函数 传递 给 Spark。 传 递 比 较 短 的 函数 时 ， 可 以 使 用 
lambda 表达 式 来 传递 ， 如 例 3-2 和 例 3-18 所 示 。 除 了 lambda 表达 式 ， 我 们 也 可 以 传递 顶 
层 函 数 或 是 定义 的 局 部 函数 。 

例 3-18: 在 Python 中 传递 函数 


word = rdd.filter(lambda s: "error" in s) 











def containsError(s): 
return "error" in s 
word = rdd.filter(containsError) 
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传递 函数 时 需要 小 心 的 一 点 是 ，Python 会 在 你 不 经 意 间 把 图 数 所 在 的 对 象 也 序列 化 传 出 
去 。 当 你 传递 的 对 象 是 某 个 对 象 的 成 员 ， 或 者 包含 了 对 某 个 对 象 中 一 个 字段 的 引用 时 〈 例 
如 self .fieLd) ，Spark 就 会 把 整个 对 象 发 到 工作 节点 上 ， 这 可 能 比 你 想 传递 的 东西 大 得 多 
( 见 例 3-19)。 有 了 时， 如 果 传 递 的 类 里 面包 含 Python 不 知道 如 何 序 列 化 传输 的 对 象 ， 也 会 
导致 你 的 程序 失败 。 


例 3-19: 传递 一 个 带 字段 引用 的 函数 ( 别 这 么 做 ! ) 


class SearchFunctions(object): 

def _ init_ (self, query): 
self.query = query 

def isMatch(self, s): 
return self.query in s 

def getMatchesFunctionReference(self, rdd): 
# 问题 :在 "self.isMatch" 中 引用 了 整个 self 
return rdd.filter(self.isMatch) 

def gethatchesMembetReferencet self, rdd): 
# 问题 :在 "self.query" 中 引用 了 整个 self 
return rdd.filter(lambda x: seLf.query in x) 












































替代 的 方案 是 ， 只 把 你 所 需要 的 字段 从 对 象 中 拿 出 来 放 到 一 个 局 部 变量 中 ， 然 后 传递 这 个 
局 部 变量 ， 如 例 3-20 所 示 。 





例 3-20: 传递 不 带 字段 引用 的 Python 函数 


class WordFunctions(object): 


def getMatchesNoReference(self, rdd): 
# 安全 :只 把 需要 的 字段 提取 到 局 部 变量 中 
query = self.query 
return rdd.filter(lambda x: query in x) 





3.4.2 Scala 


在 Scala 中， 我们 可 以 把 定义 的 内 联 函 数 、 方 法 的 引用 或 静态 方法 传递 给 Spark， 就 像 
Scala 的 其 他 函数 式 API 一 样 。 我 们 还 要 考虑 其 他 一 些 细节 ， 比 如 所 传递 的 用 数 及 其 引用 
的 数据 需要 是 可 序列 化 的 A Java 的 Serializable 接口 )。 除 此 以 外 ， 与 Python 类 似 ， 
传递 一 个 对 象 的 方法 或 者 字段 时 ， 含 对 整个 对 象 的 引用 。 这 在 Scala 中 不 是 那么 明显 ， 
毕竟 我 们 不 会 像 Python 那样 必须 用 self 写 出 那些 引用 。 类 似 在 例 3-20 中 对 Python 执行 
的 操作 ， 我 们 可 以 把 需要 的 字段 放 到 一 个 局 部 变量 中 ， 来 避免 传递 包含 该 字段 的 整个 对 
象 ， 如 例 3-21 所 示 。 


例 3-21: Scala 中 的 函数 传递 
class SearchFunctions(val query: String) { 
def isMatch(s: String): Boolean = { 
s.contains(query) 


} 
def getMatchesFunctionReference(rdd: RDD[String]): RDD[String] = { 




















// 问题 :"isMatch" 表 示 "this.isMatch" ,因此 我 们 要 传递 整个 "this" 
rdd.map(isMatch) 





def getMatchesFieldReference(rdd: RDD[String]): RDD[String] = { 
// 问题 :"query" 表 示 "this.query", 因 此 我 们 要 传递 整个 "this" 
rdd.map(x => x.split(query)) 

} 

def getMatchesNoReference(rdd: RDD[String]): RDD[String] = { 
// 安全 :只 把 我 们 需要 的 字段 拿 出 来 放 入 局 部 变量 中 
val query_ = this.query 
rdd.map(x => x.split(query_)) 

} 

} 


























如 果 在 Scala 中 出 现 了 NotSerializableException， 通常 问题 就 在 于 我 们 传递 了 一 个 不 可 序列 
化 的 类 中 的 函数 或 字段 。 记 住 ， 传 递 局 部 可 序列 化 变量 或 顶级 对 象 中 的 函数 始终 是 安全 的 。 











3.4.3 Java 


在 Java 中 ， 函 数 需 要 作为 实现 了 Spark 的 org.apache.spark.api.java.function 包 中 的 任 
一 国 数 接口 的 对 象 来 传递 。 根 据 不 同 的 返回 类 型 ， 我 们 定义 了 一 些 不 同 的 接口 。 我 们 把 最 
基本 的 一 些 函数 接口 列 在 表 3-1 中 ， 同 时 介绍 了 一 些 其 他 的 函数 接口 ， 在 需要 返回 特殊 类 
型 (比如 键 值 对 ) 的 数据 时 使 用 ， 参 见 3.5.2 节 中 的 “Java” 一 节 。 











表 3-1: 标准 Java 函 数 接口 




















函数 名 实现 的 方法 用 途 

Function<T, R> R call(1) 接收 一 个 输入 值 并 返回 一 个 输出 值 ， 用 于 类 似 map() 和 
filter() 等 操作 中 

Function2<T1, T2, R> R call(T1, T2) 接收 两 个 输入 值 并 返回 一 个 输出 值 ， 用 于 类 似 aggregate() 














和 fold() 等 操作 中 
FLatMapFunction<T，R> Iterable<R> call(T) 接收 一 个 输入 值 并 返回 任意 个 输出 ， 用 于 类 似 flatMap() 
这 样 的 操作 中 


可 以 把 我 们 的 函数 类 内 联 定义 为 使 用 匿名 内 部 类 ( 例 3-22)， 也 可 以 创建 一 个 具名 类 
( 例 3-23)。 


例 3-22: 在 Java 中 使 用 匿名 内 部 类 进行 函数 传递 
RDD<String> errors = lines.filter(new Function<String, Boolean>() { 
public Boolean call(String x) { return x.contains("error"); } 


}); 
例 3-23: 在 Java 中 使 用 具名 类 进行 函数 传递 


class ContainsError implements Function<String, Boolean>() { 
public Boolean call(String x) { return x.contains("error"); } 


} 



































RDD<String> errors = lines.filter(new ContainsError()); 
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具体 风格 的 选择 取决 于 个 人 偏好 。 不 过 我 们 发 现 顶 级 具名 类 通常 在 组 织 大 型 程序 时 显得 比较 
清晰 。 使 用 顶级 函数 的 另 一 个 好 处 在 于 你 可 以 给 它们 的 构造 函数 添加 参数 ， 如 例 3-24 所 示 。 


例 3-24: 带 参 数 的 Java 函数 类 
class Contains implements Function<String, Boolean>() { 
private String query; 
public Contains(String query) { this.query = query; } 
public Boolean call(String x) { return x.contains(query); } 


} 





RDD<String> errors = lines.filter(new Contains("error")); 
在 Java 8 中， 你 也 可 以 使 用 lambda 表达 式 来 简洁 地 实现 函数 接口 。 由 于 在 本 书写 作 时 ， 
Java 8 仍然 相对 比较 新 ， 我 们 的 示例 就 使 用 了 之 前 版 本 的 Java， 以 更 喝 嗪 的 语法 来 定义 函 
数 类 。 不 过 ， 如 果 使 用 lambda 表达 式 ， 我 们 的 搜索 示例 就 会 变 得 如 例 3-25 所 示 那 样 。 
例 3-25: 在 Java 中 使 用 Java 8 地 1lambda 表达 式 进 行 国 数 传递 


RDD<String> errors = lines.filter(s -> s.contains("error")); 











如 果 你 对 使 用 Java 8 的 lambda 表达 式 感 兴趣 ， 请 参考 Oracle 的 相关 文档 (http://docs.oracle. 
com/javase/tutorial/java/javaOO/lambdaexpressions.html) 以 及 Databricks 关于 如 何在 Spark 中 
使 用 lambda 表达 式 的 博客 (http:/databricks.comy/blog/2014/04/14/spark-with-java-8.html ) 。 








匿名 内 部 类 和 lambda 表达 式 都 可 以 引用 方法 中 封装 的 任意 final 变量 ， 因 此 
你 可 以 像 在 Python 和 Scala 中 一 样 把 这 些 变量 传递 给 Spark。 
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3.5 常见 的 转化 操作 和 行动 操作 
本 节 我 们 会 接触 Spark 中 大 部 分 常见 的 转化 操作 和 行动 操作 。 包 含 特定 数据 类 型 的 RDD 
还 支持 一 些 附加 操作 ， 例 如 ， 数 字 类 型 的 RDD 支持 统计 型 函数 操作 ， 而 键 值 对 形式 的 
RDD 则 支持 诸如 根据 键 聚 合 数 据 的 键 值 对 操作 。 我 们 也 会 在 后 面 几 节 中 讲 到 如 何 转 换 
RDD 类 型 ， 以 及 各 类 型 对 应 的 特殊 操作 。 














3.5.1 基本 RDD 
首先 来 讲 讲 哪些 转化 操作 和 行动 操作 受 任意 数据 类 型 的 RDD 支持 。 
1. 针对 各 个 元 素 的 转化 操作 


你 很 可 能 会 用 到 的 两 个 最 常用 的 转化 操作 是 map() 和 filter() ( 见 图 3-2)。 转 化 操作 
map() 接收 一 个 函数 ， 把 这 个 函数 用 于 RDD 中 的 每 个 元 素 ， 将 函数 的 返回 结果 作为 结果 
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RDD 中 对 应 元 素 的 值 。 而 转化 操作 filter() 则 接收 一 个 函数 ， 并 将 RDD 中 满足 该 函数 的 
元 素 放 入 新 的 RDD 中 返回 。 











inputRDD 
{1,2,3, 折 








mapX=> xXx*x filterx=>x!=1 






Filtered RDD 
人 3, 分 


Mapped RDD 
{1,4,9, 16} 














3-2: 从 输入 RDD 映射 与 饥 选 得 到 的 RDD 


我 们 可 以 使 用 map() 来 做 各 种 各 样 的 事情 : 可 以 把 我 们 的 URL 集合 中 的 每 个 URL 对 应 的 
主机 名 提取 出 来 ， 也 可 以 简单 到 只 对 各 个 数字 求 平 方 值 。map() 的 返回 值 类 型 不 需要 和 输 
入 类 型 一 样 。 这 样 如 果 有 一 个 字符 串 RDD， 并 且 我 们 的 map() 函数 是 用 来 把 字符 串 解析 
并 返回 一 个 Double 值 的 ， 那 么 此 时 我 们 的 输入 RDD 类 型 就 是 RDD[String] ， 而 输出 类 型 
是 RDD[Double]。 









































让 我 们 看 一 个 简单 的 例子 ， 用 map() 对 RDD 中 的 所 有 数 求 平方 (如 例 3-26 至 例 3-28 所 示 )。 
例 3-26: Python 版 计算 RDD 中 各 值 的 平方 


nums = sc.parallelize([1, 2, 3, 4]) 
squared = nums.map(lambda x: x * x).collect() 
for num in squared: 

print "%i " % (num) 


例 3-27: Scala 版 计算 RDD 中 各 值 的 平方 
val input = sc.parallelize(List(1, 2, 3, 4)) 
val result = input.map(x => x * x) 
println(result.collect().mkString(",")) 


例 3-28: Java 版 计算 RDD 中 各 值 的 平方 
JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4)); 
JavaRDD<Integer> result = rdd.map(new Function<Integer, Integer>() { 
public Integer call(Integer x) { return x*x; } 


]); 
System.out.println(StringUtils.join(result.collect(), ",")); 





有 时 候 ， 我 们 希望 对 每 个 输入 元 素 生 成 多 个 输出 元 素 。 实 现 该 功能 的 操作 叫 作 flatMap()。 
和 map() 类 似 ， 我 们 提供 给 flatMap() 的 函数 被 分 别 应 用 到 了 输入 RDD 的 每 个 元 素 上 。 不 
过 返回 的 不 是 一 个 元 素 ， 而 是 一 个 返回 值 序列 的 迭代 器 。 输 出 的 RDD 倒 不 是 由 迭代 器 组 
成 的 。 我 们 得 到 的 是 一 个 包含 各 个 迭代 器 可 访问 的 所 有 元 素 的 RDD。flatMap() 的 一 个 简 
单 用 途 是 把 输入 的 字符 串 切 分 为 单词 ， 如 例 3-29 至 例 3-31 所 示 。 
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例 3-29: Python 中 的 flatMap() 将 行 数据 切 分 为 单词 
lines = sc.parallelize(["hello world", "hi"]) 
words = lines.flatMap(lambda line: line.split(" ")) 
words.first() # 返回 "hello" 





例 3-30: Scala 中 的 flatMap() 将 行 数据 切 分 为 单词 
val lines = sc.parallelize(List("hello world", "hi")) 
val words = lines.flatMap(line => line.split(" ")) 
words.first() // 返回 "hello" 














例 3-31: Java 中 的 flatMap() 将 行 数据 切 分 为 单词 
JavaRDD<String> lines = sc.parallelize(Arrays.asList("hello world", "hi")); 
JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { 
public Iterable<String> call(String line) { 
return Arrays.asList(line.split(" ")); 


} 
]); 
words.first(); // 返回 "heLLo" 





我 们 在 图 3-3 中 阐释 了 flatMap() 和 map() 的 区 别 。 你 可 以 把 fLatMap() 看 作 将 返回 的 迭代 器 
“ 拍 扁 ”"， 这 样 就 得 到 了 一 个 由 各 列表 中 的 元 素 组 成 的 RDD， 而 不 是 一 个 由 列表 组 成 的 RDD。 

















tokenize(“coffee panda”) = List(“coffee’ “panda”) 








mappedRDD 
{[‘coffee’ “panda’”], [happy “panda”], 
[happiest “panda’, “party”]} 


rdd1.map(tokenize) 


RDD1 
{coffee panda’, “happy panda’, 
“happiest panda party’} 







flatMappedRDD 
{coffee” “panda’, happy panda”, 
“happiest”, “panda’, “party”} 





rdd1.flatMap(tokenize) 














3-3: RDD 的 flatMap() 和 map() 的 区 别 


2. 伪 集 合 操 作 
尽管 RDD 本 身 不 是 严格 意义 上 的 集合 ， 但 它 也 支持 许多 数学 上 的 集合 操作 ， 比 如 合并 和 相 
交 操 作 。 图 3-4 展示 了 四 种 操作 。 注 意 ， 这 些 操作 都 要 求 操作 的 RDD 是 相同 数据 类 型 的 。 


我 们 的 RDD 中 最 常 缺 失 的 集合 属性 是 元 素 的 唯一 性 ， 因 为 常常 有 重复 的 元 素 。 如 有 果 只 
要 唯一 的 元 素 ， 我 们 可 以 使 用 RDD.distinct() 转化 操作 来 生成 一 个 只 包含 不 同 元 素 的 新 
RDD。 不 过 需要 注意 ，distinct() 操作 的 开销 很 大 ， 因 为 它 需要 将 所 有 数据 通过 网 络 进行 
混 洗 (shuffle)， 以 确保 每 个 元 素 都 只 有 一 份 。 第 4 章 会 详细 介绍 数据 混 洗 ， 以 及 如 何 避 免 
数据 混 洗 。 


























RDD1 
{coffee, coffee, panda, 
monkey, tea} 


RDD2 
{coffee, money, kitty} 


RDD1.distinct() RDD1.union(RDD2) 


{coffee panda {coffee coffee coffee RDD1.intersection(RDD2) RDD1.subtract(RDD2) 


{coffee, monkey} {panda, tea} 


monkey, tea} panda, monkey, 
monkey, tea, kitty} 














3-4: 一 些 简单 的 集合 操作 


最 简单 的 集合 操作 是 union(other)， 它 会 返回 一 个 包含 两 个 RDD 中 所 有 元 素 的 RDD。 这 
在 很 多 用 例 下 都 很 有 用 ， 比 如 处 理 来 自 多 个 数据 源 的 日 志文 件 。 与 数学 中 的 union() 操作 
不 同 的 是 ， 如 果 输 入 的 RDD 中 有 重复 数据 ，Spark 的 union() 操作 也 会 包含 这 些 重复 数据 
(如 有 必要 ， 我 们 可 以 通过 distinct() 实现 相同 的 效果 )。 


Spark 还 提供 了 intersection(other) 方法 ， 只 返回 两 个 RDD 中 都 有 的 元 素 。intersection() 
在 运行 时 也 会 去 掉 所 有 重复 的 元 素 (单个 RDD 内 的 重复 元 素 也 会 一 起 移 除 )。 尽 管 
intersection() 与 union() 的 概念 相似 ，intersection() 的 性 能 却 要 差 很 多 ， 因 为 它 需要 
通过 网 络 混 洗 数 据 来 发 现 共 有 的 元 素 。 


有 时 我 们 需要 移 除 一 些 数据 。subtract(other) 函数 接收 另 一 个 RDD 作为 参数 ， 返 回 
一 个 由 只 存在 于 第 一 个 RDD 中 而 不 存在 于 第 二 个 RDD 中 的 所 有 元 素 组 成 的 RDD。 和 
intersection() 一 样 ， 它 也 需要 数据 混 洗 。 

我 们 也 可 以 计算 两 个 RDD 的 第 卡 儿 积 ， 如 图 3-5 所 示 。cartesian(other) 转化 操作 会 返 
所 有 可 能 的 (a，b) 对 ， 其 中 a 是 源 RDD 中 的 元 素 ， 而 b 则 来 自 另 一 个 RDD。 第 卡 儿 积 在 
我 们 希望 考虑 所 有 可 能 的 组 合 的 相似 度 时 比较 有 用 ， 比 如 计算 各 用 户 对 各 种 产品 的 预期 兴 
趣 程度 。 我 们 也 可 以 求 一 个 RDD 与 其 自身 的 笛 卡 儿 积 ， 这 可 以 用 于 求 用 户 相 似 度 的 应 用 
中 。 不 过 要 特别 注意 的 是 ， 求 大 规模 RDD 的 笛 卡 儿 积 开销 巨大 。 


















































回 





























RDD1 RDD1.cartesian(RDD2) 
{User(1), User(2), User(3)} {(User(1), Venue(” Betabrand”)), 
(User(1), Venue(’Asha Tea House”)), 
(User(1), Venue(”Ritual”)), 
cartesian {(User(2), Venue(” Betabrand")), 


(User(2), Venue( Asha Tea House”)), 
RDD2 (User(2), Venue(’Ritual”)), 
{Venue(’Betabrand’) {(User(3), Venue(” Betabrand”)), 
Venue('AshaTeal De (User(3), Venue( Asha Tea House )) 
Venue(’Ritual")} % (User(3), Venue( Ritual’)), 














3-5: 两 个 RDD 的 币 卡 儿 积 
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表 3-2 和 表 3-3 总 结 了 这 些 常见 的 RDD 转化 操作 。 
表 3-2: 对 一 个 数据 为 {1, 2, 3, 3} 的 RDD 进 行 基本 的 RDD 转 化 操作 
























































函数 名 目的 示例 结果 

map() 将 函数 应 用 于 RDD 中 的 每 个 元 rdd.map(x => x + 1) C2. 3744} 
素 ， 将 返回 值 构成 新 的 RDD 

flatMap() 将 函数 应 用 于 RDD 中 的 每 个 元 rdd.flatMap(x => x.to(3)) {1, 2, 3, 2, 3,3, 3} 
素 ， 将 返回 的 迭代 器 的 所 有 内 
容 构成 新 的 RDD。 通 常用 来 切 
分 单词 

filter() 返回 一 个 由 通过 传 给 filter() rdd.filter(x => x != 1) {2 335 3 
的 函数 的 元 素 组 成 的 RDD 

distinct() 去 重 rdd.distinct() {1 2; 3 

sample(withRe ”对 RDD 采样 ， 以 及 是 否 替 换 rdd.sample(false, 0.5) 非 确定 的 


placement, fra 
ction, [seed]) 


表 3-3: 对 数据 分 别 为 {1, 2, 3} 和 {3, 4, 5} 的 RDD 进 行 针对 两 个 RDD 的 转化 操作 














函数 名 目的 示例 结果 

union() 生成 一 个 包含 两 个 RDD 中 所 有 元 rdd.union(other) 位 25 3 3 
素 的 RDD 

intersection() 求 两 个 RDD 共同 的 元 素 的 RDD rdd.intersection(other) {3} 

subtract() 移 除 一 个 RDD 中 的 内 容 (例如 移 rdd.subtract(other) {1, 2} 


cartesian() 


3. 行动 操作 


除 训练 数据 





~ 一 





与 另 一 个 RDD 的 第 卡 儿 积 





rdd.cartesian(other) {C1 3 (Lt, 4), 
(3, 5)} 


你 很 有 可 能 会 用 到 基本 RDD 上 最 常见 的 行动 操作 reduce()。 它 接收 一 个 函数 作为 参数 ， 这 个 
函数 要 操作 两 个 RDD 的 元 素 类 型 的 数据 并 返回 一 个 同样 类 型 的 新 元 素 。 一 个 简单 的 例子 就 
是 函数 +， 可 以 用 它 来 对 我 们 的 RDD 进行 累加 。 使 用 reduce()， 可 以 很 方便 地 计算 出 RDD 
中 所 有 元 素 的 总 和 、 元 素 的 个 数 ， 以 及 其 他 类 型 的 聚合 操作 (如 例 3-32 至 例 3-34 所 示 )。 


例 3-32: Python 中 的 reduce( ) 


sum = rdd.reduce(lambda x, y: x + y) 


例 3-33: Scala 中 的 reduce() 


val sum = rdd.reduce((x, y) => x + y) 


例 3-34: Java 中 的 reduce() 


Integer sum = rdd.reduce(new Function2<Integer, Integer, Integer>() { 
public Integer call(Integer x, Integer y) { return x + y; } 


}); 
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fotd() 和 reduce() 类 似 ， 接 收 一 个 与 reduce() 接收 的 函数 签名 相同 的 函数 ， 再 加 上 一 个 
“初始 值 ”来 作为 每 个 分 区 第 一 次 调用 时 的 结果 。 你 所 提供 的 初始 值 应 当 是 你 提供 的 操作 
的 单位 元 素 ; 也 就 是 说 ， 使 用 你 的 函数 对 这 个 初始 值 进行 多 次 计算 不 会 改变 结果 (例如 + 
对 应 的 0，* 对 应 的 1， 或 拼接 操作 对 应 的 空 列表 ) 。 





我 们 可 以 通过 原 地 修改 并 返回 两 个 参数 中 的 前 一 个 的 值 来 节约 在 foLd() 中 创 
建 对 象 的 开销 。 但 是 你 没有 办 法 修改 第 二 个 参数 。 


fold() 和 reduce() 都 要 求 国 数 的 返回 值 类 型 需要 和 我 们 所 操作 的 RDD 中 的 元 素 类 型 相 
这 很 符合 像 sum 这 种 操作 的 情况 。 但 有 时 我 们 确实 需要 返回 一 个 不 同类 型 的 值 。 例 

， 在 计算 平均 值 时 ， 需 要 记录 遍历 过 程 中 的 计数 以 及 元 素 的 数量 ， 这 就 需要 我 们 返回 一 
和 可 以 先 对 数据 使 用 map() 操作 ， 来 把 元 素 转 为 该 元 素 和 1 的 二 元 组 ， 也 就 是 我 
们 所 希望 的 返回 类 型 。 这 样 reduce() 就 可 以 以 二 元 组 的 形式 进行 归 约 了 。 























aggregate() 函数 则 把 我 们 从 返回 值 类 型 必须 与 所 操作 的 RDD 类 型 相同 的 限制 中 解放 出 
来 。 与 foLd() 类 似 ， 使 用 aggregate() 时 ， 需 要 提供 我 们 期 待 返回 的 类 型 的 初始 值 。 然 后 
通过 一 个 函数 把 RDD 中 的 元 素 合 并 起 来 放 入 累加 器 。 考 虑 到 每 个 节点 是 在 本 地 进行 累加 
的 ， 最 终 ， 还 需要 提供 第 二 个 函数 来 将 累加 器 8 两 两 合并 。 


我 们 可 以 用 aggregate() 来 计算 RDD 的 平均 值 ， 来 代替 map() 后 面 接 foLd() 的 方式 ， 如 
例 3-35 至 例 3-37 所 示 。 




















例 3-35: Python 中 的 aggregate() 


sumCount = nums.aggregate((0，0)， 

(Lambda acc，vVvaLue: (acc[0] + vaLue，acc[1] + 1)， 

(Lambda acc1，acc2: (acc1l[0] + acc2[0], acci[1] + acc2[1])))) 
return sumCount[0] / float(sumCount[1]) 


例 3-36: Scala 中 的 aggregate() 


val result = input.aggregate((0, 0))( 
(acc, valyue) => (acc. 1 + valuye, acc. 2 + 1)， 
(acc1，acc2) => (acc1. 1 + acc2. 1，acc1. 2 + acc2. 2)) 
val avg = result. 1 / result. 2.toDouble 


例 3-37: Java 中 的 aggregate() 


class AvgCount implements Serializable { 
public AvgCount(int total, int num) { 
this.total = total; 
this.num = num; 
} 
public int total; 
public int num; 
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public double avg() { 
return total / (double) num; 
} 

} 

Function2<AvgCount, Integer, AvgCount> addAndCount = 
new Function2<AvgCount, Integer, AvgCount>() { 

public AvgCount call(AvgCount a, Integer x) { 
a.total += X; 
a.num += 1; 
return a; 
} 
}; 
Function2<AvgCount, AvgCount, AvgCount> combine = 
new Function2<AvgCount, AvgCount, AvgCount>() { 
public AvgCount call(AvgCount a, AvgCount b) { 
a.total += b.total; 
a.num += b.num; 
return a; 

} 

二 

AvgCount initial = new AvgCount(0, 0); 

AvgCount result = rdd.aggregate(initial, addAndCount, combine); 

System.out.println(result.avg()); 


RDD 的 一 些 行动 操作 会 以 普通 集合 或 者 值 的 形式 将 RDD 的 部 分 或 全 部 数据 返回 驱动 器 程 
序 中 。 


把 数据 返回 驱动 器 程序 中 最 简单 、 最 常见 的 操作 是 collect()， 它 会 将 整个 RDD 的 内 容 返 
回 。collect() 通常 在 单元 测试 中 使 用 ， 因 为 此 时 RDD 的 整个 内 容 不 会 很 大 ， 可 以 放 在 内 
存 中 。 使 用 collect() 使 得 RDD 的 值 与 预期 结果 之 间 的 对 比 变 得 很 容易 。 由 于 需要 将 数据 
复制 到 驱动 器 进程 中 ，collect() 要 求 所 有 数据 都 必须 能 一 同 放 入 单 台 机 器 的 内 存 中 。 





























take(n) 返回 RDD 中 的 n 个 元 素 ， 并且 尝 试 只 访问 尽量 少 的 分 区 ， 因 此 该 操作 会 得 到 一 个 
不 均衡 的 集合 。 需 要 注意 的 是 ， 这 些 操作 返回 元 素 的 顺序 与 你 预期 的 可 能 不 一 样 。 


这 些 操作 对 于 单元 测试 和 快速 调试 都 很 有 有 用， 但 是 在 处 理 大 规模 数据 时 会 遇 到 瓶颈 。 

如 果 为 数据 定义 了 顺序 ， 就 可 以 使 用 top() 从 RDD 中 获取 前 几 个 元 素 。top() 会 使 用 数据 
的 默认 顺序 ， 但 我 们 也 可 以 提供 自己 的 比较 函数 ， 来 提取 前 几 个 元 素 。 

有 时 需要 在 驱动 器 程序 中 对 我 们 的 数据 进行 采样 。takeSample(withReplacement， num， 
seed) 函数 可 以 让 我 们 从 数据 中 获取 一 个 采样 ， 并 指定 是 否 替 换 。 


有 时 我 们 会 对 RDD 中 的 所 有 元 素 应 用 一 个 行动 操作 ， 但 是 不 把 任何 结果 返回 到 驱动 器 程 
序 中 ， 这 也 是 有 用 的 。 比 如 可 以 用 JSON 格式 把 数据 发 送 到 一 个 网 络 服务 器 上 ， 或 者 把 数 
据 存 到 数据 库 中 。 不 论 哪 种 情况 ， 都 可 以 使 用 foreach() 行动 操作 来 对 RDD 中 的 每 个 元 
素 进行 操作 ， 而 不 需要 把 RDD 发 回 本 地 。 






























































入 后 
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关于 基本 RDD 上 的 更 多 标准 操作 ， 我 们 都 可 以 从 其 名 称 推测 出 它们 的 行为 。count() 用 来 
返回 元 素 的 个 数 ， 而 countByVatue() 则 返回 一 个 从 各 值 到 值 对 应 的 计数 的 映射 表 。 表 3-4 
总 结 了 这 些 行动 操作 。 


表 3-4: 对 一 个 数据 为 {1, 2, 3, 3} 的 RDD 进 行 基本 的 RDD 行 动 操作 




































































函数 名 目的 示例 结果 
collect() 返回 RDD 中 的 所 有 元 素 rdd.collect() ee re 
count() RDD 中 的 元 素 个 数 rdd.count() 4 
countByValue() 各 元 素 在 RDD 中 出 现 的 次 数 ”rdd.countByValue() {C1 1); 
(2, 1), 
(3, 2)} 
take(num) 从 RDD 中 返回 num 个 元 素 rdd.take(2) 但， 于 
top(num) 从 RDD 中 返回 最 前 面 的 num rdd.top(2) {3, 3} 
个 元 素 
takeOrdered(num) 从 RDD 中 按照 提供 的 顺序 返 rdd.takeOrdered(2)(myOrdering) {3，3} 
(ordering) 可 最 前 面 的 nun 个 元 素 
takeSample(withReplace 从 RDD 中 返回 任意 一 些 元 素 rdd.takeSample(false, 1) 非 确 定 的 
ment, num, [seed]) 
reduce(func) 并 行 整 合 RDD 中 所 有 数据 rdd.reduce((x, y) => x + y) 9 
(例如 sum) 
fold(zero)(func) 和 reduce() 一 样 ， 但 是 需要 rdd.foLd(0)((x，y) => x + y) 9 
提供 初始 值 
aggregate(zerovaLue) 和 reduce() 相似 ， 但 是 通常 rdd.aggregate((0，0)) (9,4) 
(seqOp, combOp) 返回 不 同类 型 的 函数 ((x, y) => 
(x._1 + y, Xx. 2+1)， 
(x, y) => 
®te 0  D D) 
foreach(func) 对 RDD 中 的 每 个 元 素 使 用 给 rdd.foreach(func) 无 


3.5.2 ”在 不 同 RDD 类 型 间 转 换 

有 些 国 数 只 能 用 于 特定 类 型 的 RDD， 比 如 mean() 和 variance() 只 能 用 在 数值 RDD 上 ， 
而 join() 只 能 用 在 键 值 对 RDD 上 。 我 们 会 在 第 6 章 讨 论 数 值 RDD 的 专门 函数 ， 在 第 4 
章 讨论 键 值 对 RDD 的 专 有 操作 。 在 Scala 和 Java 中， 这 些 国 数 都 没有 定义 在 标准 的 RDD 
类 中 ， 所 以 要 访问 这 些 附 加 功能 ， 必 须要 确保 获得 了 正确 的 专用 RDD 类 。 














1. Scala 

在 Scala 中 ， 将 RDD 转 为 有 特定 函数 的 RDD (比如 在 RDD[Double] 上 进行 数值 操作 ) 是 
由 隐 式 转换 来 自动 处 理 的 。2.4.1 节 中 提 到 过 ， 我 们 需要 加 上 import org.apache.spark. 
SparkContext._ 来 使 用 这 些 隐 式 转换 。 你 可 以 在 SparkContext 对 象 的 Scala 文档 (http://spark. 
apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkContext$) 中 查看 所 列 出 的 隐 式 
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转换 。 这 些 隐 式 转换 可 以 隐 式 地 将 一 个 RDD 转 为 各 种 封装 类 ， 比 如 DoubleRDDFunctions 
(数值 数据 的 RDD) 和 PairRDDFunctions 〈 键 值 对 RDD)， 这 样 我 们 就 有 了 诸如 mean() 和 
variance() 之 类 的 额外 的 函数 。 


隐 式 转换 虽然 强大 ， 但 是 会 让 阅读 代码 的 人 感到 困惑 。 如 果 你 对 RDD 调用 了 像 mean() 这 
样 的 函数 ， 可 能 会 发 现 RDD 类 的 Scala 文档 (http://spark.apache.org/docs/latest/api/scala/ 
index.html#org.apache.spark.rdd.RDD) 中 根本 没有 mean() 函数 。 调 用 之 所 以 能 够 成 功 ， 是 
因为 隐 式 转换 可 以 把 RDD[Double] 转 为 DoubleRDDFunctions。 当 我 们 在 Scala 文档 中 查找 函 
数 时 ， 不 要 忘 了 那些 封装 的 专用 类 中 的 函数 。 








2. Java 
在 Java 中 ， 各 种 RDD 的 特殊 类 型 间 的 转换 更 为 明确 。Java 中 有 两 个 专门 的 类 JavaDoubleRDD 
和 JavaPairRDD， 来 处 理 特殊 类 型 的 RDD， 这 两 个 类 还 针对 这 些 类 型 提供 了 额外 的 函数 。 
这 让 你 可 以 更 加 了 解 所 发 生 的 一 切 ， 但 是 也 显得 有 些 累 殉 。 

要 构建 出 这 些 特 殊 类 型 的 RDD， 需 要 使 用 特殊 版 本 的 类 来 灰 代 一 般 使 用 的 Function 类 。 如 果 


要 从 T 类 型 的 RDD 创建 出 一 个 DoubleRDD， 我 们 就 应 当 在 映射 操作 中 使 用 DoubleFunction<T> 
来 灰 代 Function<T，Double>。 表 3-5 展示 了 一 些 特 殊 版 本 的 函数 类 及 其 用 法 。 























此 外 , 我 们 也 需要 调用 RDD 上 的 一 些 别 的 函数 (因此 不 能 只 是 创建 出 一 个 DoubleFunction 
然后 把 它 传 给 map())。 当 需要 一 个 DoubleRDD 时 ， 我 们 应 当 调 用 mapToDouble() 来 替代 
map()， 跟 其 他 所 有 函数 所 遵循 的 模式 一 样 。 


表 3-5: Java 中 针对 专门 类 型 的 函数 接口 























函数 名 等 价 函 数 用 途 
DoubleFlatMapFunction<T> Function<T, Iterable<Double>> 用 于 flatMapToDouble， 以 
生成 DoubleRDD 
DoubleFunction<T> Function<T, Double> 用 于 mapToDouble， 以 生成 
DoubLeRDD 
PairFlatMapFunction<T, K, V> Function<T, Iterable<Tuple2<K, V>>> 用 于 flatMapToPair， 以 生 
成 PaitrRDD<K，V> 
PairFunction<T, K, V> Function<T, Tuple2<K, V>> 用 于 mapToPair， 以 生成 








PairRDD<K, V> 


我 们 可 以 把 例 3-28 修改 为 生成 一 个 JavaDoubleRDD、 计 算 RDD 中 每 个 元 素 的 平方 值 的 示例 ， 
如 例 3-38 所 示 。 这 样 就 可 以 调用 DoubleRDD 独 有 的 函数 了 ， 比 如 mean() 和 variance()。 





例 3-38: 用 Java 创建 DoubleRDD 


JavaDoubleRDD result = rdd.mapToDoubLe( 
new DoubLeFunction<Integer>() { 
public double call(Integer x) { 
return (double) x * x; 
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} 
]); 
System.out.printLn(resuLt.mean() ); 
3. Python 
Python 的 API 结构 与 Java 和 Scala 有 所 不 同 。 在 Python 中 ， 所 有 的 函数 都 实现 在 基本 的 
RDD 类 中 ， 但 如 果 操 作对 应 的 RDD 数据 类 型 不 正确 ， 就 会 导致 运行 时 错误 。 


3.6 ”持久 化 (缓存 ) 


如 前 所 述 ，Spark RDD 是 惰性 求 值 的 ， 而 有 时 我 们 希望 能 多 次 使 用 同一 个 RDD。 如 果 简单 
地 对 RDD 调用 行动 操作 ，Spark 每 次 都 会 重 算 RDD 以 及 它 的 所 有 依赖 。 这 在 和 迭代 算法 中 
消耗 格外 大 ， 因 为 迭代 算法 常常 会 多 次 使 用 同一 组 数据 。 例 3-39 就 是 先 对 RDD 作 一 次 计 
数 、 再 把 该 RDD 输出 的 一 个 小 例子 。 









































例 3-39: Scala 中 的 两 次 执行 
val result = input.map(x => x*x) 
println(result.count()) 
println(result.collect().mkString(",")) 


为 了 避免 多 次 计算 同一 个 RDD， 可 以 让 Spark 对 数据 进行 持久 化 。 当 我 们 让 Spark 持久 化 
存储 一 个 RDD 时 ， 计 算出 RDD 的 节点 会 分 别 保存 它们 所 求 出 的 分 区 数据 。 如 果 一 个 有 持 
入 化 数据 的 节点 发 生 故障 ，Spark 会 在 需要 用 到 缓存 的 数据 时 重 算 丢 失 的 数据 分 区 。 如 果 
希望 节点 故障 的 情况 不 会 拖累 我 们 的 执行 速度 ， 也 可 以 把 数据 备份 到 多 个 节点 上 。 




















出 于 不 同 的 目的 ， 我 们 可 以 为 RDD 选择 不 同 的 持久 化 级 别 (如 表 3-6 所 示 )。 在 Scala ( 见 
例 3-40) 和 Java 中 ， 黑 认 情 况 下 persist() 会 把 数据 以 序列 化 的 形式 缓存 在 JVM 的 堆 空 
间 中 。 在 Python 中 ， 我 们 会 始终 序列 化 要 持久 化 存储 的 数据 ， 所 以 持久 化 级 别 默认 值 就 是 
以 序列 化 后 的 对 象 存 储 在 JVM 推 空间 中 。 当 我 们 把 数据 写 到 磁盘 或 者 堆 外 存储 上 时 ， 也 
总 是 使 用 序列 化 后 的 数据 。 
































表 3-6: org.apache.spark.storage.StorageLevel 和 pyspark.StorageLevel 中 的 持久 化 级 
别 ; 如 有 必要 ， 可 以 通过 在 存储 级 别 的 末尾 加 上 “_2” 来 把 持久 化 数据 存 为 两 份 
使 用 的 ”CPU 是 否 在 是 否 在 





“3 空间 ”时间 ”内存 中 磁盘 上 备注 

MEMORY_ONLY 高 低 是 否 

MEMORY_ONLY_SER 低 高 是 否 

MEMORY_AND_DISK 高 ”中 等 ”部 分 部分， 如果 数 据 在 内 存 中 放 不 下 ， 则 溢 写 到 磁 


盘 上 
MEMORY_AND_DISK_SER 低 高 部 分 ”部 分 ”如果 数据 在 内 存 中 放 不 下 ， 则 溢 写 到 磁 
盘 上 。 在 内 存 中 存放 序列 化 后 的 数据 





DISK_ONLY 低 高 否 是 
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堆 外 缓存 是 试验 性 功能 ， 我 们 使 用 Tachyon (http://tachyon-project.org/) 作 
为 外 部 系统 。 如 果 你 对 Spark 的 堆 外 缓存 有 兴趣 ， 可 以 看 看 关于 如 何在 
Tachyon 上 运行 Spark 的 介绍 (http://tachyon-project.org/Running-Spark-on- 
Tachyon.html ) 。 


例 3-40: 在 Scala 中 使 用 persist() 


val result = input.map(x => x * x) 
result.persist(StorageLevel.DISK_ONLY) 
println(result.count()) 
println(result.collect().mkString(",")) 





注意 ， 我 们 在 第 一 次 对 这 个 RDD 调用 行动 操作 前 就 调用 了 persist() 方法 。persist() 调 
用 本 身 不 会 触发 强制 求 值 。 


如 果 要 缓存 的 数据 太 多 ， 内 存 中 放 不 下 ，Spark 会 自动 利用 最 近 最 少 使 用 (LRU) 的 缓存 
策略 把 最 老 的 分 区 从 内 存 中 移 除 。 对 于 仅 把 数据 存放 在 内 存 中 的 缓存 级 别 ， 下 一 次 要 用 到 
已 经 被 移 除 的 分 区 时 ， 这 些 分 区 就 需要 重新 计算 。 但 是 对 于 使 用 内 存 与 磁盘 的 缓存 级 别 的 
分 区 来 说 ， 被 移 除 的 分 区 都 会 写 人 磁盘 。 不 论 哪 一 种 情况 ， 都 不 必 担 心 你 的 作业 因为 缓存 
了 太 多 数据 而 被 打 断 。 不 过 ， 缓 存 不 必要 的 数据 会 导致 有 用 的 数据 被 移出 内 存 ， 带 来 更 多 
重 算 的 时 间 开 销 。 











最 后 ，RDD 还 有 一 个 方法 叫 作 unpersist()， 调 用 该 方法 可 以 手动 把 持久 化 的 RDD 从 组 
存 中 移 除 。 


3.7 总结 


在 本 章 中 ， 我 们 介绍 了 RDD 运行 模型 以 及 RDD 的 许多 常见 操作 。 如 果 你 读 到 了 这 里 ， 茶 
喜 一 一 你 已 经 学 完了 Spark 的 所 有 核心 概念 。 我 们 在 进行 并 行 聚合 、 分 组 等 操作 时 ， 常 常 
需要 利用 键 值 对 形式 的 RDD。 下 一 章 会 讲解 键 值 对 形式 的 RDD 上 一 些 相关 的 特殊 操作 。 
然后 ， 我 们 会 讨论 各 种 数据 源 的 输入 输出 ， 以 及 一 些 关 于 使 用 SparkContext 的 进 阶 话题 。 
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键 值 对 操作 





键 值 对 RDD 是 Spark 中 许多 操作 所 需要 的 常见 数据 类 型 。 本 章 就 来 介绍 如 何 操作 键 值 对 
RDD。 键 值 对 RDD 通常 用 来 进行 聚合 计算 。 我 们 一 般 要 先 通 过 一 些 初 始 EITL (抽取 、 转 
化 、 装 载 ) 操作 来 将 数据 转化 为 键 值 对 形式 。 键 值 对 RDD 提供 了 一 些 新 的 操作 接口 (比如 
统计 每 个 产品 的 评论 ， 将 数据 中 键 相 同 的 分 为 一 组 ， 将 两 个 不 同 的 RDD 进行 分 组 合并 等 )。 


本 章 也 会 讨论 用 来 让 用 户 控制 键 值 对 RDD 在 各 节点 上 分 布 情况 的 高 级 特性 : 分 区 。 有 时 ， 
使 用 可 控 的 分 区 方式 把 常 被 一 起 访问 的 数据 放 到 同一 个 节点 上 ， 可 以 大 大 减少 应 用 的 通信 
开销 。 这 会 带 来 明显 的 性 能 提升 。 我 们 会 使 用 PageRank 算法 来 演示 分 区 的 作用 。 为 分 布 
式 数 据 集 选择 正确 的 分 区 方式 和 为 本 地 数据 集 选 择 合适 的 数据 结构 很 相似 一 一 在 这 两 种 情 
况 下 ， 数 据 的 分 布 都 会 极其 明显 地 影响 程序 的 性 能 表现 。 


4.1 动机 


Spark 为 包含 键 值 对 类 型 的 RDD 提供 了 一 些 专 有 的 操作 。 这 些 RDD 被 称 为 pair RDD'。Pair 
RDD 是 很 多 程序 的 构成 要 素 ， 因 为 它们 提供 了 并 行 操作 各 个 键 或 跨 节 点 重新 进行 数据 分 组 
的 操作 接口 。 例 如 ，pair RDD 提供 reduceByKey() 方法 ， 可 以 分 别 归 约 每 个 键 对 应 的 数据 ， 
还 有 join() 方法 ， 可 以 把 两 个 RDD 中 键 相 同 的 元 素 组 合 到 一 起 ， 合 并 为 一 个 RDD。 我 们 
通常 从 一 个 RDD 中 提取 某 些 字段 (例如 代表 事件 时 间 、 用 户 ID 或 者 其 他 标识 符 的 字段 )， 
并 使 用 这 些 字段 作为 pair RDD 操作 中 的 键 。 





















































注 1: “pair RDD” 意 为 “对 RDD”， 为 避免 引发 歧义 ， 译 文中 保留 “pair RDD”。 一 一 译 者 注 
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4.2 创建 Pair RDD 


在 Spark 中 有 很 多 种 创建 pair RDD 的 方式 。 第 5 章 会 讲 到 ， 很 多 存储 键 值 对 的 数据 格式 会 
在 读 取 时 直接 返回 由 其 键 值 对 数据 组 成 的 pair RDD。 此 外 ， 当 需要 把 一 个 普通 的 RDD 转 
为 pair RDD 时 ， 可 以 调用 map() 函数 来 实现 ， 传 递 的 函数 需要 返回 键 值 对 。 后 面 会 展示 如 
何 将 由 文本 行 组 成 的 RDD 转换 为 以 每 行 的 第 一 个 单词 为 键 的 pair RDD。 


构建 键 值 对 RDD 的 方法 在 不 同 的 语言 中 会 有 所 不 同 。 在 Python 中 ， 为 了 让 提取 键 之 后 的 
数据 能 够 在 函数 中 使 用 ， 需 要 返回 一 个 由 二 元 组 组 成 的 RDD ( 见 例 4-1)。 


例 4-1: 在 Python 中 使 用 第 一 个 单词 作为 键 创建 出 一 个 pair RDD 


pairs = Lines.map(Lambda x: (x.split(" ")[0], x)) 



























































在 Scala 中， 为 了 让 提取 键 之 后 的 数据 能 够 在 函数 中 使 用 ， 同 样 需要 返回 二 元 组 〈 见 例 
4-2)。 隐 式 转换 可 以 让 二 元 组 RDD 支持 附加 的 键 值 对 函数 。 


例 4-2: 在 Scala 中 使 用 第 一 个 单词 作为 键 创建 出 一 个 pair RDD 


val pairs = lines.map(x => (x.split(" ")(0), x)) 











Java 没有 自 带 的 二 元 组 类 型 ， 因 此 Spark 的 Java API 让 用 户 使 用 scala.Tuple2 类 来 创建 二 
元 组 。 这 个 类 很 简单 : Java 用 户 可 以 通过 new Tuple2(elem1，elem2) 来 创建 一 个 新 的 二 元 
组 ， 并 且 可 以 通过 ._1() 和 ._2() 方法 访问 其 中 的 元 素 。 








Java 用 户 还 需要 调用 专门 的 Spark 函数 来 创建 pair RDD。 例 如 ， 要 使 用 mapToPair() 函数 
来 代替 基础 版 的 map() 函数 ， 这 在 3.5.2 节 中 的 “Java” 一 节 有 过 更 详细 的 讨论 。 下 面 通过 
例 4-3 中 展示 一 个 简单 的 例子 。 




















例 4-3: 在 Java 中 使 用 第 一 个 单词 作为 键 创 建 出 一 个 pair RDD 
PairFunction<String, String, String> keyData = 
new PairFunction<String, String, String>() { 
public Tuple2<String, String> call(String x) { 
return new Tuple2(x.split(" ")[0], x); 
} 
}; 


JavaPairRDD<String, String> pairs = lines.mapTopPair(keyData); 








当 用 Scala 和 Python 从 一 个 内 存 中 的 数据 集 创 建 pair RDD 时 ， 只 需要 对 这 个 由 二 元 组 组 成 
的 集合 调用 SparkContext.parallelize() 方法 。 而 要 使 用 Java 从 内 存 数据 集 创建 pair RDD 
的 话 ， 则 需要 使 用 SparkContext.parallelizepairs()。 


4.3 Pair RDD 的 转化 操作 


Pair RDD 可 以 使 用 所 有 标准 RDD 上 的 可 用 的 转化 操作 。3.4 节 中 介绍 的 所 有 有 关 传 递 函 数 
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的 规则 也 都 同样 适用 于 pair RDD。 由 于 pair RDD 中 包含 二 元 组 ， 所 以 需要 传递 的 函数 应 





当 操作 二 元 组 而 不 是 独立 的 元 素 。 表 4-1 和 表 4-2 总 结 了 对 pair RDD 的 一 些 转化 操作 ， 在 


本 章 会 深入 介绍 。 








表 4-1: Pair RDD 的 转化 操作 〈 以 键 值 对 集合 {(1，2)，(3，4)，(3，6)]} 为 例 ) 








函数 名 目的 示例 结果 
reduceByKey(func) 合并 具有 相同 键 的 值 rdd.reduceByKey((x, y) => x + y) {(1， 
2)，(3， 
10)} 
groupByKey() 对 具有 相同 键 的 值 进行 分 组 ” rdd.groupByKey() {(1, 
[2])， 
(3，[4， 
6])} 
combineBy 使 用 不 同 的 返回 类 型 合并 具有 见 例 4-12 到 例 4-14。 
Key( createCombiner， 相同 键 的 值 
mergeValue, 
mergeCombiners, 
partitioner) 
mapValues(func) 对 pair RDD 中 的 每 个 值 应 用 rdd.mapValues(x => x+1) {(1, 
一 个 函数 而 不 改变 键 3), (3, 
5), (3, 
7)} 
flatMapValues(func) 对 pair RDD 中 的 每 个 值 应 用 rdd.flatMapValues(x => (x to 5)) {(1， 
一 个 返回 迭代 器 的 函数 ， 然 后 2)，(1， 
对 返回 的 每 个 元 素 都 生成 一 个 3), (1, 
对 应 原 键 的 键 值 对 记录 。 通 党 Re 
用 于 符号 化 3 (3y 
4)，(3， 
5)} 
keys() 返回 一 个 仅 包含 键 的 RDD rdd.keys() {1, 3, 
3} 
values() 返回 一 个 仅 包 含 值 的 RDD rdd.values() {2，4， 
6} 
sortByKey() 返回 一 个 根据 键 排 序 的 RDD rdd.sortByKey() {(1, 
2), (3, 
4), (3, 
6)} 
























































表 4-2: 针对 两 个 pair RDD 的 转化 操作 (rdd = {(1, 2), (3, 4),，(3, 6)}other = {(3, 9)}) 

















函数 名 目的 示例 结果 
subtractByKey ”有 删 掉 RDD 中 键 与 other RDD 中 的 键 相 rdd.subtractByKey(other) {(1, 2)} 

司 的 元 素 
join 对 两 个 RDD 进行 内 连接 rdd.join(other) {(3, (4, 9)), (3, 





(6, 9))} 
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函数 名 目的 示例 结果 

rightOuterJoin 对 两 个 RDD 进行 连接 操作 ， 确 保 第 一 rdd.rightOuterJoin(other) {(3,(Some(4) ,9))， 
个 RDD 的 键 必 须 存在 〈 右 外 连接 ) (3,(Some(6),9))} 

leftOuterJoin 对 两 个 RDD 进行 连接 操作 ， 确 保 第 二 rdd.leftOuterJoin(other) {(1,(2,None))，(3， 
个 RDD 的 键 必 须 存 在 ( 左 外 连接 ) (4,Some(9))), (3, 

(6,Some(9)))} 

cogroup 将 两 个 RDD 中 拥有 相同 键 的 数据 分 组 rdd.cogroup(other) {(1([2],[]))，(3， 

到 一 起 〈[4，6],[9]))} 








接 下 来 的 儿 市 会 详细 探讨 这 些 pair RDD 的 函数 。 











Pair RDD 也 还 是 RDD (元 素 为 Java 或 Scala 中 的 Tuple2 对 象 或 Python 中 的 元 组 )， 因 此 
同样 支持 RDD 所 支持 的 函数 。 例 如 ， 我 们 可 以 拿 前 一 市 中 的 pair RDD， 和 筛选 掉 长 度 超过 
20 个 字符 的 行 ， 如 例 4-4 至 例 4-6 以 及 图 4-1 所 示 。 














例 4-4: 用 Python 对 第 二 个 元 素 进行 算 选 
result = pairs.filter(lambda keyValue: len(keyValue[1]) < 20) 


例 4-5: 用 Scala 对 第 二 个 元 素 进行 往 选 
pairs.filter{case (key, valuye) => value.length < 20} 


例 4-6: 用 Java 对 第 二 个 元 素 进 行 筛选 
Function<Tuple2<String, String>, Boolean> longWordFilter = 
new Function<Tuple2<String, String>, Boolean>() { 
public Boolean call(Tuple2<String, String> keyValue) { 
return (keyVaLue. 2().Length() < 20); 
} 
}; 


JavaPairRDD<String, String> result = pairs.filter(longWordFilter); 


panda | likeslong 
strings and 
Coffee 
4-1: 根据 值 筛选 


有 上 时， 我 们 只 想 访 问 pair RDD 的 值 部 分 ， 这 时 操作 二 元 组 很 麻烦 。 由 于 这 是 一 种 常见 的 
使 用 模式 ， 因 此 Spark 提供 了 mapValues(func) 函数 ， 功 能 类 似 于 map{case (x，y): (x， 
func(y))}。 可 以 在 很 多 例子 中 使 用 这 个 函数 。 

接 下 来 就 依次 讨论 pair RDD 的 各 种 操作 ， 先 从 聚合 操作 开始 。 
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4.3.1 聚合 操作 





当 数 据 集 以 键 值 对 形式 组 织 的 时 候 ， 聚 合 具 


有 相同 键 的 元 素 进行 一 些 统计 是 很 常见 的 操 


作 。 之 前 讲解 过 基础 RDD 上 的 fold()、combine()、reduce() 等 行动 操作 ，pair RDD 上 则 
有 相应 的 针对 键 的 转化 操作 。Spark 有 一 组 类 似 的 操作 ， 可 以 组 合 具有 相同 键 的 值 。 这 些 





操作 返回 RDD， 因 此 它们 是 转化 操作 而 不 是 行动 操作 。 
reduceByKey() 与 reduce() 相当 类 似 ， 它 们 都 接收 一 个 函数 ， 并 使 用 该 函数 对 值 进 行 合并 。 














reduceByKey() 会 为 数据 集中 的 每 个 键 进行 并 行 的 归 约 操作 ， 每 个 归 约 操 作 会 将 键 相同 的 值 合 
并 起 来 。 因 为 数据 集中 可 能 有 大 量 的 键 ， 所 以 reduceByKey() 没有 被 实现 为 向 用 户 程序 返回 一 





个 值 的 行动 操作 。 实 际 上 ， 它 会 返回 一 个 由 各 键 和 对 应 键 归 约 














来 的 结果 值 组 成 的 新 的 RDD。 





foldByKey() 则 与 foLd() 相当 类 似 ， 它 们 都 使 用 一 个 与 RDD 和 合并 函数 中 的 数据 类 型 相 
同 的 零 值 作为 初始 值 。 与 fold() 一 样 ，foldByKey() 操作 所 使 用 的 合并 函数 对 零 值 与 另 一 

















个 元 素 进行 合并 ， 结 果 仍 为 该 元 素 。 























如 例 4-7 和 例 4-8 所 示 ， 可 以 使 用 reduceByKey() 和 mapValues() 来 计算 每 个 键 的 对 应 值 的 
均值 ( 见 图 4-2)。 这 和 使 用 fold() 和 map() 计算 整个 RDD 平均 值 的 过 程 很 相似 。 对 于 求 
平均 ， 可 以 使 用 更 加 专用 的 函数 来 获取 同样 的 结果 ， 后 面 就 会 讲 到 。 


例 4-7: 在 Python 中 使 用 reduceByKey() 和 mapValues() 计算 每 个 键 对 应 的 平均 值 
rdd.mapValues(lambda x: (x, 1)).reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1])) 












































例 4-8: 在 Scala 中 使 用 reduceByKey() 和 mapValues() 计算 每 个 键 对 应 的 平均 值 


rdd.mapValues(x => (x, 1)).reduceByKey((x, y) => (x. 1 + y. 1，x. 2 + y. 2)) 
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4-2: 求 每 个 键 平均 值 的 数据 流 
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熟悉 MapReduce 中 的 合并 器 (combiner) 概念 的 读者 可 能 已 经 注意 到 ， 调 
用 reduceByKey() 和 foldByKey() 会 在 为 每 个 键 计算 全 局 的 总 结果 之 前 
先 自动 在 每 台 机 器 上 进行 本 地 合并 。 用 户 不 需要 指定 合并 器 。 更 泛 化 的 
combineByKey() 接口 可 以 让 你 自 定义 合并 的 行为 。 

















我 们 也 可 以 使 用 例 4-9 到 例 4-11 中 展示 的 方法 来 解决 经 典 的 分 布 式 单词 计数 问题 。 可 以 
使 用 前 一 章 中 讲 过 的 fLatMap() 来 生成 以 单词 为 键 、 以 数字 1 为 值 的 pair RDD， 然 后 像 例 
4-7 和 例 4-8 中 那样 ， 使 用 reduceByKey() 对 所 有 的 单词 进行 计数 。 





例 4-9: 用 Python 实现 单词 计数 
rdd = sc.textFile("s3://...") 


words = rdd.fLatMap(Lambda x: x.split(" ")) 
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y) 


例 4-10: 用 Scala 实现 单词 计数 


val ;input = sc.textFile("s3://...") 
val words = input.flatMap(x => x.split(" ")) 
val result = words.map(x => (x, 1)).reduceByKey((x, y) => x + y) 


例 4-11: 用 Java 实现 单词 计数 
JavaRDD<String> input = sc.textFile("s3://...") 
JavaRDD<String> words = rdd.flatMap(new FlatMapFunction<String, String>() { 
public Iterable<String> call(String x) { return Arrays.asList(x.split(" ")); } 
]); 
JavaPairRDD<String, Integer> result = words.mapToPair( 
new PairFunction<String, String, Integer>() { 
public Tuple2<String, Integer> call(String x) { return new Tuple2(x, 1); } 
}).reduceByKey( 
new Function2<Integer, Integer, Integer>() { 
public Integer call(Integer a, Integer b) { return a + b; } 
]); 











事实 上 ， 我 们 可 以 对 第 一 个 RDD 使 用 countByvatue() 函数 ， 以 更 快 地 实现 
单词 计数 : input.flatMap(x => x.split(" ")).countByValue()。 


























combineByKey() 是 最 为 常用 的 基于 键 进行 聚合 的 国 数 。 大 多 数 基于 键 聚 合 的 国 数 都 是 用 它 
实现 的 。 和 aggregate() 一 样 ，combineByKey() 可 以 让 用 户 返 回 与 输入 数据 的 类 型 不 同 的 
返回 值 。 

















要 理解 combineBykey()， 要 先 理 解 它 在 处 理 数 据 时 是 如 何 处 理 每 个 元 素 的 。 由 于 
combineByKey() 会 遍历 分 区 中 的 所 有 元 素 ， 因 此 每 个 元 素 的 键 要 么 还 没有 遇 到 过 ， 要 么 就 
和 之 前 的 某 个 元 素 的 键 相同 。 
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如 果 这 是 一 个 新 的 元 素 ，combineByKey() 会 使 用 一 个 叫 作 createCombiner() 的 函数 来 创建 
那个 键 对 应 的 累加 器 的 初始 值 。 需 要 注意 的 是 ， 这 一 过 程 会 在 每 个 分 区 中 第 一 次 出 现 各 个 
键 时 发 生 ， 而 不 是 在 整个 RDD 中 第 一 次 出 现 一 个 键 时 发 生 。 

如 果 这 是 一 个 在 处 理 当 前 分 区 之 前 已 经 遇 到 的 键 ， 它 会 使 用 mergeValue() 方法 将 该 键 的 累 
加 器 对 应 的 当前 值 与 这 个 新 的 值 进行 合并 。 


由 于 每 个 分 区 都 是 独立 处 理 的 ， 因 此 对 于 同一 个 键 可 以 有 多 个 累加 器 。 如 果 有 两 个 或 者 更 
多 的 分 区 都 有 对 应 同一 个 键 的 累加 器 ， 就 需要 使 用 用 户 提供 的 mergeCombiners() 方法 将 各 
个 分 区 的 结果 进行 合并 。 























如 果 已 知 数据 在 进行 combineByKey() 时 无 法 从 map 端 聚 合 中 获 益 的 话 ， 可 以 
禁用 它 。 例 如 ， 由 于 聚合 函数 (追加 到 一 个 队列 ) 无 法 在 map 端 聚合 时 节约 
任何 空间 ，groupByKey() 就 把 它 禁用 了 。 如 果 和 希望 禁用 map 端 组 合 ， 就 需要 
间 定 分 区 方式 。 就 目前 而 言 ， 你 可 以 通过 传递 rdd.partitioner 来 直接 使 用 
源 RDD 的 分 区 方式 。 











combineByKey() 有 多 个 参数 分 别 对 应 聚合 操作 的 各 个 阶段 ， 因 而 非常 适合 用 来 解释 聚合 操 
作 各 个 阶段 的 功能 划分 。 为 了 更 好 地 演示 combineByKey() 是 如 何 工作 的 ， 下 面 来 看 看 如 何 
计算 各 键 对 应 的 平均 值 ， 如 例 4-12 至 例 4-14 和 图 4-3 所 示 。 





例 4-12: 在 Python 中 使 用 combineByKey() 求 每 个 键 对 应 的 平均 值 
sumCount = nums .CombineByKey((Lambda x: (x,1)), 
(Lambda x, y: (x[0] + y, x[1] + 1))， 
(lambda x, y: (x[0] + y[9]，x[1] + y[1]))) 
sumCount.map(lambda key, xy: (key, xy[0]/xy[1])).collectAsMap() 


例 4-13: 在 Scala 中 使 用 combineByKey() 求 每 个 键 对 应 的 平均 值 
val result = input.combineByKey( 
(v) => (v, 1), 
(acc: (Int, Int), v) => (acc. 1 + v, acc. 2 + 1)， 
(acc1: (Int, Int), acc2: (Int, Int)) => (acc1. 1 + acc2. 1, accl. 2 + acc2. 2) 
).map{ case (key, value) => (key, value. 1 / value. 2.toFLoat) } 
result.collectAsMap().map(println(_)) 


例 4-14: 在 Java 中 使 用 combineByKey() 求 每 个 键 对 应 的 平均 值 


public static class AvgCount implements Serializable { 
public AvgCount(int total, int num) { total_ = total; num = num; } 
public int total ; 
public int num ; 
public float avg() { returntotal _/(float)num ; } 
} 


Function<Integer, AvgCount> createAcc = new Function<Integer, AvgCount>() { 
public AvgCount call(Integer x) { 
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return new AvgCount(x, 1); 
} 
}; 
Function2<AvgCount, Integer, AvgCount> addAndCount = 
new Function2<AvgCount, Integer, AvgCount>() { 
public AvgCount call(AvgCount a, Integer x) { 
dad.total_ += Xx; 
a.num_ += 1; 
return a; 
} 
}; 
Function2<AvgCount, AvgCount, AvgCount> combine = 
new Function2<AvgCount, AvgCount, AvgCount>() { 
public AvgCount call(AvgCount a, AvgCount b) { 
dad.total_ += b.total ; 
a.Num_ += b.num ; 
return a; 
} 
}; 
AvgCount initial = new AvgCount(0,0); 
JavaPairRDD<String, AvgCount> avgCounts = 
nums .combineByKey(createAcc, addAndCount, combine); 
Map<String, AvgCount> countMap = avgCounts.collectAsMap(); 
for (Entry<String, AvgCount> entry : countMap.entrySet()) { 
System.out.println(entry.getKey() + ":" + entry.getValue().avg()); 
} 








处 理 分 区 1 的 过 程 : 

(coffee, 1) -> new key 

accumulators[coffee] = createCombiner(1) 

(coffee, 2) -> existing key 

accumulators[coffee] = merge Value(accumulators[coffee], 2) 
(panda, 3) -> new key 

accumulators[panda] = createCombiner(3) 





处 理 分 区 2 的 过 程 : 
(coffee, 9) -> new key 
accumulators[coffee] = createCombiner(9) 


合并 分 区 : 

mergeCombiners( 分 [x.1.accumulators[coffee], 

def createCombiner(value): 分 区 2.accumulators[coffee]) 
(value, 1) 





def mergeValue(acc, value): 
(acc[0] + value, acc[1] +1) 


def mergqeCombiners(acc1, acc2): 
(acc1[0] + acc2[0], acc1[1] + acc2[1]) 








4-3: combineByKey() 数据 流 示意 图 





有 很 多 函数 可 以 进行 基于 键 的 数据 合并 。 它 们 中 的 大 多 数 都 是 在 combineByKey() 的 基础 上 
实现 的 ， 为 用 户 提供 了 更 简单 的 接口 。 不 管 怎样 ， 在 Spark 中 使 用 这 些 专用 的 聚合 函数 ， 





让 











始终 要 比 手 动 将 数据 分 组 再 归 约 快 很 多 。 

并 行 度 调 优 

到 目前 为 止 ， 我 们 已 经 讨论 了 所 有 的 转化 操作 的 分 发 方式 ， 但 是 还 没有 探讨 Spark 是 怎样 
确定 如 何 分 割 工作 的 。 每 个 RDD 都 有 固定 数目 的 分 区 ， 分 区 数 决定 了 在 RDD 上 执行 操作 
时 的 并 行 度 。 

在 执行 聚合 或 分 组 操作 时 ， 可 以 要 求 Spark 使 用 给 定 的 分 区 数 。Spark 始终 尝试 根据 集群 
的 大 小 推断 出 一 个 有 意义 的 默认 值 ， 但 是 有 时 候 你 可 能 要 对 并 行 度 进行 调 优 来 获取 更 好 的 
性 能 表现 。 

本 章 讨论 的 大 多 数 操 作 符 都 能 接收 第 二 个 参数 ， 这 个 参数 用 来 指定 分 组 双 
RDD 的 分 区 数 ， 如 例 4-15 和 例 4-16 所 示 。 
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例 4-15: 在 Python 中 自 定义 reduceByKey() 的 并 行 度 
data = [("a"，3)，("b"，4)，("a"，1)] 
sc.parallelize(data).reduceByKey(lambda x, y: x + y) # 默认 并 行 度 
sc.parallelize(data).reduceByKey(lambda x，y: x + y，10) # 自 定义 并 行 度 








例 4-16: 在 Scala 中 自 定义 reduceByKey() 的 并 行 度 

val data = Seq(("a", 3), ("b", 4), ("a", 1)) 

sc.parallelize(data).reduceByKey((x, y) => x + y) // 默认 并 行 度 

sc.parallelize(data).reduceByKey((x, y) => x + y) // 自 定义 并 行 度 
有 时， 我 们 希望 在 除 分 组 操作 和 聚合 操作 之 外 的 操作 中 也 能 改变 RDD 的 分 区 。 对 于 
这 样 的 情况 ，Spark 提供 了 repartition() 国 数 。 它 会 把 数据 通过 网 络 进行 混 洗 ， 并 创 
建 出 新 的 分 区 集合 。 切 记 ， 对 数据 进行 重新 分 区 是 代价 相对 比较 大 的 操作 。Spark 中 也 
有 一 个 优化 版 的 repartition()， 叫 作 coalesce()。 你 可 以 使 用 Java 或 Scala 中 的 rdd. 
partitions.size() 以 及 Python 中 的 rdd.getNumpartitions 查看 RDD 的 分 区 数 ， 并 确保 调 
用 coalesce() 时 将 RDD 合并 到 比 现 在 的 分 区 数 更 少 的 分 区 中 。 


4.3.2 ”数据 分 组 

对 于 有 键 的 数据 ， 一 个 常见 的 用 例 是 将 数据 根据 键 进行 分 组 
订单 。 
如 果 数 据 已 经 以 预期 的 方式 提取 了 键 ，groupByKey() 就 会 使 用 RDD 中 的 键 来 对 数据 进行 
分 组 。 对 于 一 个 由 类 型 K 的 键 和 类 型 v 的 值 组 成 的 RDD， 所 得 到 的 结果 RDD 类 型 会 是 
[K，IterabLe[V]]。 

groupBy() 可 以 用 于 未 成 对 的 数据 上 ， 也 可 以 根据 除 键 相同 以 外 的 条 件 进 行 分 组 。 它 可 以 
接收 一 个 函数 ， 对 源 RDD 中 的 每 个 元 素 使 用 该 函数 ， 将 返回 结果 作为 键 再 进行 分 组 。 























比如 查看 一 个 顾客 的 所 有 
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如 果 你 发 现 自己 写 出 了 先 使 用 groupByKey() 然后 再 对 值 使 用 reduce() 或 者 
fold() 的 代码 ， 你 很 有 可 能 可 以 通过 使 用 一 种 根据 键 进 行 聚合 的 国 数 来 更 
高 效 地 实现 同样 的 效果 。 对 每 个 键 归 约 数据 ， 返 回 对 应 每 个 键 的 归 约 值 的 
RDD， 而 不 是 把 RDD 归 约 为 一 个 内 存 中 的 值 。 例 如 ，rdd.reduceByKey(func) 
与 rdd.groupByKey().mapValues(value => value.reduce(func)) 等 价 ， 但 是 前 


者 更 为 高 效 ， 因 为 它 避 免 了 为 每 个 键 创建 存放 值 的 列表 的 步 又。 

















除了 对 单个 RDD 的 数据 进行 分 组 ， 还 可 以 使 用 一 个 叫 作 cogroup() 的 函数 对 多 个 共享 同 
一 个 键 的 RDD 进行 分 组 。 对 两 个 键 的 类 型 均 为 K 而 值 的 类 型 分 别 为 V 和 AN 的 RDD 进行 
cogroup() 时 ， 得 到 的 结果 RDD 类 型 为 [(K，(Iterable[V]，Iterable[W]))]。 如 果 其 中 的 
一 个 RDD 对 于 另 一 个 RDD 中 存在 的 某 个 键 没有 对 应 的 记录 ， 那 么 对 应 的 从 代 器 则 为 空 。 
cogroup() 提供 了 为 多 个 RDD 进行 数据 分 组 的 方法 。 


cogroup() 是 下 一 节 中 要 讲 的 连接 操作 的 构成 要 素 。 


cogroup() 不 仅 可 以 用 于 实现 连接 操作 ， 还 可 以 用 来 求 键 的 交集 。 除 此 之 外 ， 
cogroup() 还 能 同时 应 用 于 三 个 及 以 上 的 RDD。 


4.3.3 连接 

将 有 键 的 数据 与 另 一 组 有 键 的 数据 一 起 使 用 是 对 键 值 对 数据 执行 的 最 有 用 的 操作 之 一 。 连 
接 数据 可 能 是 pair RDD 最 常用 的 操作 之 一 。 连 接 方式 多 种 多 样 : 右 外 连接 、 左 外 连接 、 交 
又 连接 以 及 内 连接 。 

普通 的 join 操作 符 表示 内 连接 *。 只 有 在 两 个 pair RDD 中 都 存在 的 键 才 叫 输 出 。 当 一 个 输 
入 对 应 的 某 个 键 有 多 个 值 时 ， 生 成 的 pair RDD 会 包括 来 自 两 个 输入 RDD 的 每 一 组 相对 应 
的 记录 。 例 4-17 可 以 帮 你 理解 这 个 定义 。 


例 4-17: 在 Scala shell 中 进行 内 连接 
storeAddress = { 
(Store("RituaL" )，"1026 Valencia St"), (Store("Philz"), "748 Van Ness Ave" )， 
(Store("Philz"), "3101 24th St"), (Store("Starbucks"), "Seattle")} 





























storeRating = { 
(Store("Rituyal"), 4.9), (Store("Philz"), 4.8))} 


storeAddress.join(storeRating) == 
(Store("Rituyal"), ("1026 Valencia St", 4.9)), 
(Store("Philz"), ("748 Van Ness Ave", 4.8)), 
(Store("Philz"), ("3101 24th St", 4.8))} 








注 2:“ 连 接 ” 是 数据 库 术 语 ， 表 示 将 两 张 表 根据 相同 的 值 来 组 合 字段 。 
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有 时 ， 我 们 不 希望 结果 中 的 键 必须 在 两 个 RDD 中 都 存在 。 例 如 ， 在 连接 客户 信息 与 推荐 
时 ， 如 果 一 些 客户 还 没有 收 到 推荐 ， 我 们 仍然 不 希望 丢掉 这 些 顾客 。LeftouterJotn(other) 
和 rightouterJoin(other) 都 会 根据 键 连接 两 个 RDD， 但 是 允许 结果 中 存在 其 中 的 一 个 
pair RDD 所 缺失 的 键 。 


在 使 用 LeftouterJoin() 产生 的 pair RDD 中 ， 源 RDD 的 每 一 个 键 都 有 对 应 的 记录 。 每 个 
键 相 应 的 值 是 由 一 个 源 RDD 中 的 值 与 一 个 包含 第 二 个 RDD 的 值 的 Option (在 Java 中 为 
OptionaL) 对 象 组 成 的 二 元 组 。 在 Python 中 ， 如 果 一 个 值 不 存在 ， 则 使 用 None 来 表示 ; 
而 数据 存在 时 就 用 常规 的 值 来 表示 ， 不 使 用 任何 封装 。 和 join() 一 样 ， 每 个 键 可 以 得 到 多 
条 记录 ， 当 这 种 情况 发 生 时 ， 我 们 会 得 到 两 个 RDD 中 对 应 同一 个 键 的 两 组 值 的 入 卡尔 积 。 























![tips]optionat 是 Google 的 Guava 库 (https://github.com/google/guava) 中 的 
一 部 分 ， 表 示 有 可 能 缺失 的 值 。 可 以 调用 isPresent() 来 看 值 是 否 存在 ， 如 
果 数 据 存在 ， 则 可 以 调用 get() 来 获得 其 中 包含 的 对 象 实例 。 

















rightOuterJotin() 几乎 与 LeftouterJotin() 完全 一 样 ， 只 不 过 预期 结果 中 的 键 必 须 出 现在 
第 二 个 RDD 中 ， 而 二 元 组 中 的 可 缺失 的 部 分 则 来 自 于 源 RDD 而 非 第 二 个 RDD。 





回顾 一 下 例 4-17， 并 在 例 4-18 中 对 这 两 个 之 前 用 来 演示 join() 的 pair RDD 进行 
leftOuterJoin() 和 rightOuterJoin()。 


例 4-18: leftOuterJoin() 与 rightOuterJoin() 


storeAddress. leftOuterJoin(storeRating) == 

{(Store("Ritual"),("1026 Valencia St" ,Some(4.9)))， 
(Store("Starbucks"),("Seattle" ,None)), 
(Store("Philz"),("748 Van Ness Ave",Some(4.8))), 
(Store("Philz"),("3101 24th St",Some(4.8)))} 


storeAddress.rightOuterJoin(storeRating) == 

{(Store("Ritual"),(Some("1026 Valencia St"),4.9)), 
(Store("Philz"),(Some("748 Van Ness Ave"),4.8)), 
(Store("Philz"), (Some("3101 24th St"),4.8))} 


4.3.4 数据 排序 

很 多 时 候 ， 让 数据 排 好 序 是 很 有 用 的 ， 尤 其 是 在 生成 下 游 输出 时 。 如 果 键 有 已 定义 的 顺 
序 ， 就 可 以 对 这 种 键 值 对 RDD 进行 排序 。 当 把 数据 排 好 序 后， 后 续 对 数据 进行 collect() 
或 save() 等 操作 都 会 得 到 有 序 的 数据 。 


我 们 经 常 要 将 RDD 倒序 排列 ， 因 此 sortByKey() 函数 接收 一 个 叫 作 ascending 的 参数 ， 表 
示 我 们 是 否 想 要 让 结果 按 升序 排序 (默认 值 为 true)。 有 时 我 们 也 可 能 想 按 完全 不 同 的 排 
序 依据 进行 排序 。 要 支持 这 种 情况 ， 我 们 可 以 提供 自 定义 的 比较 函数 。 例 4-19 至 例 4-21 
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会 将 整数 转 为 字符 串 ， 然 后 使 用 字符 串 比较 函数 来 对 RDD 进行 排序 。 





例 4-19: 在 Python 中 以 字符 串 顺 序 对 整数 进行 自 定义 排序 


rdd.sortByKey(ascending=True, numpartitions=None, keyfunc = lambda x: str(x)) 





例 4-20: 在 Scala 中 以 字符 串 顺 序 对 整数 进行 自 定义 排序 


val input: RDD[(Int, Venue)] = ... 
implicit val sortIntegersByString = new Ordering[Int] { 
override def compare(a: Int, b: Int) = a.toString.compare(b.toString) 


} 
rdd. sortByKey() 


例 4-21: 在 Java 中 以 字符 串 顺序 对 整数 进行 自 定义 排序 
class IntegerComparator implements Comparator<Integer> { 


public int compare(Integer a, Integer b) { 
return String.valueOf(a).compareTo(String.valueOf(b)) 


} 





rdd.sortByKey(comp) 


4.4 Pair RDD 的 行动 操作 


和 转化 操作 一 样 ， 所 有 基础 RDD 支持 的 传统 行动 操作 也 都 在 pair RDD 上 可 用 。Pair RDD 
提供 了 一 些 额外 的 行动 操作 ， 可 以 让 我 们 充分 利用 数据 的 键 值 对 特性 。 这 些 操作 列 在 了 表 


























4-3 中 。 

表 4-3: Pair RDD 的 行动 操作 (以 键 值 对 集合 {(1，2)，(3，4)，(3，6)} 为 例 ) 

函数 描述 示例 结果 

countByKey() 对 每 个 键 对 应 的 元 素 分 别 计数 rdd.countByKey() {(1, 1), (3, 2)} 

collectAsMap() 将 结果 以 映射 表 的 形式 返回 ， 以 便 查 询 ”rdd.collectAsMap() Map{(1, 2), (3, 
4), (3, 6)} 

Lookup(key) 返回 给 定 键 对 应 的 所 有 值 rdd.Lookup(3) [4, 6] 








就 pair RDD 而 言 ， 还 有 别 的 一 些 行动 操作 可 以 保存 RDD， 会 在 第 5 章 介 绍 。 


4.5 数据 分 区 〈 进 阶 ) 





本 章 要 讨论 的 最 后 一 个 Spark 特性 是 对 数据 集 在 节点 间 的 分 区 进行 控制 。 在 分 布 式 程序 中 ， 
通信 的 代价 是 很 大 的 ， 因 此 控制 数据 分 布 以 获得 最 少 的 网 络 传输 可 以 极 大 地 提升 整体 性 
能 。 和 单 布 点 的 程序 需要 为 记录 集合 选择 合适 的 数据 结构 一 样 ，Spark 程序 可 以 通过 控制 
RDD 分 区 方式 来 减少 通信 开销 。 分 区 并 不 是 对 所 有 应 用 都 有 好 处 的 一 一 比如 ， 如 果 给 定 
RDD 只 需要 被 扫描 一 次 ， 我 们 完全 没有 必要 对 其 预先 进行 分 区 处 理 。 只 有 当 数 据 集 多 次 在 
诸如 连接 这 种 基于 键 的 操作 中 使 用 时 ， 分 区 才 会 有 帮助 。 我 们 会 给 出 一 些小 例子 来 说 明 这 
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一 点 


wo 





Spark 中 所 有 的 键 值 对 RDD 都 可 以 进行 分 区 。 系 统 会 根据 一 个 针对 键 的 函数 对 元 素 进行 分 
组 。 尽 管 Spark 没有 给 出 显示 控制 每 个 键 具体 落 在 哪 一 个 工作 节点 上 的 方法 (部 分 原因 是 
Spark 即使 在 某 些 节点 失败 时 依然 可 以 工作 )， 但 Spark 可 以 确保 同一 组 的 键 出 现在 同一 个 
节点 上 。 比 如 ， 你 可 能 使 用 哈 希 分 区 将 一 个 RDD 分 成 了 100 个 分 区 ， 此 时 键 的 哈 希 值 对 
100 取 模 的 结果 相同 的 记录 会 被 放 在 一 个 市 点 上 。 你 也 可 以 使 用 范围 分 区 法 ， 将 键 在 同一 
个 范围 区 间 内 的 记录 都 放 在 同一 个 节点 上 。 


举 个 简单 的 例子 ， 我 们 分 析 这 样 一 个 应 用 ， 它 在 内 存 中 保存 着 一 张 很 大 的 用 户 信 息 表 一 一 
也 就 是 一 个 由 (UserID，UserInfo) 对 组 成 的 RDD， 其 中 UserInfo 包含 一 个 该 用 户 所 订阅 
的 主题 的 列表 。 该 应 用 会 周期 性 地 将 这 张 表 与 一 个 小 文件 进行 组 合 ， 这 个 小 文件 中 存 着 过 
去 五 分 钟 内 发 生 的 事件 一 一 其 实 就 是 一 个 由 (UserID， LinkInfo) 对 组 成 的 表 ， 存 放 着 过 去 
五 分 钟 内 某 网 站 各 用 户 的 访问 情况 。 例 如 ， 我 们 可 能 需要 对 用 户 访问 其 未 订阅 主题 的 页 面 
的 情况 进行 统计 。 我 们 可 以 使 用 Spark 的 join() 操作 来 实现 这 个 组 合 操作 ， 其 中 需要 把 
UserInfo 和 LinkInfo 的 有 序 对 根据 UserID 进行 分 组 。 我 们 的 应 用 如 例 4-22 所 示 。 
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例 4-22: 简单 的 Scala 应 用 


// 初始 化 代码 ;从 HDFS 商 的 一 个 Hadoop SequenceFite 中 读 取 用 户 信息 
// userData 中 的 元 素 会 根据 它们 被 读 取 时 的 来 源 , 即 HDFS 块 所 在 的 节 点 来 分 布 

// Spark 此 时 无 法 获知 某 个 特定 的 UserID 对 应 的 记录 位 于 哪个 节点 上 

val sc = new SparkContext(...) 

val userData = sc.sequenceFile[UserID, UserInfo]("hdfs://...").persist() 


// 周期 性 调用 函数 来 处 理 过 去 五 分 钟 产生 的 事件 日 志 
// 假设 这 是 一 个 包含 (UserID，LinkInfo) 对 的 SequenceFile 
def processNewLogs(logFileName: String) { 
val events = sc.sequenceFile[UserID, LinkIinfo](logFileName) 
val joined = userData.join(events)// RDD of (UserID, (UserInfo, LinkInfo)) pairs 
val offTopicVisits = joined.filter { 
case (userId, (userInfo, linkInfo)) => // Expand the tuple into its components 
!userInfo. topics.contains(linkInfo.topic) 
}.count() 
println("Number of visits to non-subscribed topics: " + offTopicVisits) 


} 


这 段 代码 可 以 正确 运行 ,但 是 不 够 高 效 。 这 是 因为 在 每 次 调用 processNewLogs() 时 都 会 用 
到 join() 操作 ， 而 我 们 对 数据 集 是 如 何 分 区 的 却 一 无 所 知 。 上 默认 情况 下 ， 连 接 操作 会 将 两 
个 数据 集中 的 所 有 键 的 哈 希 值 都 求 出 来 ， 将 该 哈 希 值 相同 的 记录 通过 网 络 传 到 同一 台 机 器 
上 ， 然 后 在 那 台 机 器 上 对 所 有 键 相 同 的 记录 进行 连接 操作 ( 见 图 4-4)。 因 为 userData 表 比 
每 五 分 钟 出 现 的 访问 日 志 表 events 要 大 得 多 ， 所 以 要 浪费 时 间 做 很 多 额外 工作 : 在 每 次 调 
用 时 都 对 userData 表 进 行 哈 希 值 计 算 和 跨 节 点 数据 混 洗 ， 虽 然 这 些 数 据 从 来 都 不 会 变化 。 
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4-4: 未 使 用 partitionBy() 时 对 userData 和 events 进行 连接 操作 


要 解决 这 一 问题 也 很 简单 : 在 程序 开始 时 ， 对 userData 表 使 用 partitionBy() 转化 操作 ， 
将 这 张 表 转 为 哈 希 分 区 。 可 以 通过 向 partitionBy 传递 一 个 spark.HashPartitioner 对 象 来 
实现 该 操作 ， 如 例 4-23 所 示 。 








例 4-23: Scala 自 定 义 分 区 方式 


val sc = new SparkContext(...) 

val userData = sc.sequenceFile[UserID, UserInfo]("hdfs://...") 
.partitionBy(new HashPartitioner(100))  // 构造 100 个 分 区 
.persist() 


processNewLogs() 方 法 可 以 保持 不 变 在 processNewLogs() 中 ，eventsRDD 是 本 地 变 
量 ， 只 在 该 方法 中 使 用 了 一 次 ， 所 以 为 events 指定 分 区 方式 没有 什么 用 处 。 由 于 在 构 
建 userData 时 调用 了 partitionBy()，Spark 就 知道 了 该 RDD 是 根据 键 的 哈 希 值 来 分 
区 的 ， 这 样 在 调用 join() 时 ，Spark 就 会 利用 到 这 一 点 。 有 具体 来 说 ， 当 调用 userData. 
join(events) 时 ，Spark 只 会 对 events 进行 数据 混 洗 操作 ， 将 events 中 特定 UserID 的 记 
录 发 送 到 userData 的 对 应 分 区 所 在 的 那 台 机 器 上 ( 见 图 4-5)。 这 样 ， 需 要 通过 网 络 传输 的 
数据 就 大 大 减少 了 ， 程 序 运行 速度 也 可 以 显著 提升 了 。 


注意 ，partitionBy() 是 一 个 转化 操作 ， 因 此 它 的 返回 值 总 是 一 个 新 的 RDD， 但 它 不 会 改变 
原来 的 RDD。RDD 一 旦 创建 就 无 法 修改 。 因 此 应 该 对 partitionBy() 的 结果 进行 持久 化 ， 
并 保存 为 userData， 而 不 是 原来 的 sequenceFile() 的 输出 。 此 外 ， 传 给 partitionBy() 的 
100 表示 分 区 数目 ， 它 会 控制 之 后 对 这 个 RDD 进行 进一步 操作 (比如 连接 操作 ) 时 有 多 少 
任务 会 并 行 执行 。 总 的 来 说 ， 这 个 值 至 少 应 该 和 集群 中 的 总 核心 数 一 样 。 
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4-5: 使 用 partitionBy() 时 对 userData 和 events 进行 连接 操作 





如 果 没 有 将 partitionBy() 转化 操作 的 结果 持久 化 ， 那 么 后 面 每 次 用 到 这 个 
RDD 时 都 会 重复 地 对 数据 进行 分 区 操作 。 不 进行 持久 化 会 导致 整个 RDD 谱 
系 图 重新 求 值 。 那 样 的 话 ，partitionBy() 带 来 的 好 处 就 会 被 抵消 ， 导 致 重 
复 对 数据 进行 分 区 以 及 跨 节 点 的 混 洗 ， 和 没有 指定 分 区 方式 时 发 生 的 情况 十 
分 相似 。 
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事实 上， 许多 其 他 Spark 操作 会 自动 为 结果 RDD 设 定 已 知 的 分 区 方式 信息 ， 而 且 除 
join() 外 还 有 很 多 操作 也 会 利用 到 已 有 的 分 区 信息 。 比 如 ，sortByKey() 和 groupByKey() 
会 分 别 生 成 范围 分 区 的 RDD 和 哈 希 分 区 的 RDD。 而 另 一 方面 ， 诸 如 map() 这 样 的 操作 会 
导致 新 的 RDD 失去 父 RDD 的 分 区 信息 ， 因 为 这 样 的 操作 理论 上 可 能 会 修改 每 条 记录 的 
键 。 接 下 来 的 几 节 中 ， 我 们 会 讨论 如 何 获取 RDD 的 分 区 信息 ， 以 及 数据 分 区 是 如 何 影响 
各 种 Spark 操作 的 。 
































Java 和 Python 中 的 数据 分 区 

Spark 的 Java 和 Python 的 API 都 和 Scala 的 一 样 ， 可 以 从 数据 分 区 中 获 益 。 
不 过 ， 在 Python 中 ， 你 不 能 将 HashPartitioner 对 象 传 给 partitionBy， 而 
只 需要 把 需要 的 分 区 数 传递 过 去 〈 例 如 rdd.partitionBy(106) ) 。 





4.5.1 获取 RDD 的 分 区 方式 
在 Scala 和 Java 中 ， 你 可 以 使 用 RDD 的 partitioner 属性 (Java 中 使 用 partitioner() 方 
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法 ) 来 获取 RDD 的 分 区 方式 。 它 会 返回 一 个 scala.0ption 对 象 ， 这 是 Scala 中 用 来 存放 
可 能 存在 的 对 象 的 容器 类 。 你 可 以 对 这 个 0ption 对 象 调用 isDefined() 来 检查 其 中 是 否 有 
值 ， 调 用 get() 来 获取 其 中 的 值 。 如 果 存 在 值 的 话 ， 这 个 值 会 是 一 个 spark.Partitioner 
对 象 。 这 本 质 上 是 一 个 告诉 我 们 RDD 中 各 个 键 分 别 属于 哪个 分 区 的 函数 。 我 们 之 后 会 进 
一 步 讨 论 这 一 点 。 


在 Spark shell 中 使 用 partitioner 属性 不 仅 是 检验 各 种 Spark 操作 如 何 影 响 分 区 方式 的 一 种 
好 办 法 ， 还 可 以 用 来 在 你 的 程序 中 检查 想 要 使 用 的 操作 是 否 会 生成 正确 的 结果 ( 见 例 4-24)。 


例 4-24: 获取 RDD 的 分 区 方式 


scala> val pairs = sc.parallelize(List((1, 1), (2, 2), (3, 3))) 
pairs: spark.RDD[(Int，Int)] = ParallelCollectionRDD[0] at parallelize at 
<console>:12 

















scala> pairs.partitioner 
res0: Option[spark.Partitioner] = None 


scala> val partitioned = pairs.partitionBy(new spark.Hashpartitioner(2)) 
partitioned: spark.RDD[(Int, Int)] = ShuffledRDD[1] at partitionBy at <console>:14 


scala> partitioned.partitioner 
res1: Option[spark.Partitioner] = Some(spark.Hashpartitioner@5147788d) 


在 这 段 简短 的 代码 中 ， 我 们 创建 出 了 一 个 由 (Int，Int) 对 组 成 的 RDD， 初 始 时 没有 分 
区 方式 信息 (一 个 值 为 None 的 0ption 对 象 )。 然 后 通过 对 第 一 个 RDD 进行 哈 希 分 区 ， 
创建 出 了 第 二 个 RDD。 如 果 确 实 要 在 后 续 操作 中 使 用 partitioned， 那 就 应 当 在 定义 
partitioned 时 ， 在 第 三 行 输入 的 最 后 加 上 persist()。 这 和 之 前 的 例子 中 需要 对 userData 
调用 persist() 的 原因 是 一 样 的 : 如 果 不 调 用 persist() 的 话 ， 后 续 的 RDD 操作 会 对 
partitioned 的 整个 谱系 重新 求 值 ， 这 会 导致 对 pairs 一 遍 又 一 遍地 进行 哈 希 分 区 操作 。 






























































4.5.2 ”从 分 区 中 获 益 的 操作 

Spark 的 许多 操作 都 引入 了 将 数据 根据 键 跨 节点 进行 混 洗 的 过 程 。 所 有 这 些 操 作 都 会 
从 数据 分 区 中 获 益 。 就 Spark 1.0 而 言 ， 能 够 从 数据 分 区 中 获 益 的 操作 有 cogroup()、 
groupWith()、join()、1leftOuterJoin()、rightOuterJoin()、groupByKey()、reduceByKey()、 
combineByKey() 以 及 lookup()。 








对 于 像 reduceByKey() 这 样 只 作用 于 单个 RDD 的 操作 ， 运 行 在 未 分 区 的 RDD 上 的 时 候 会 
导致 每 个 键 的 所 有 对 应 值 都 在 每 台 机 器 上 进行 本 地 计算 ， 只 需要 把 本 地 最 终归 约 出 的 结 
果 值 从 各 工作 节点 传 回 主 节点 ， 所 以 原本 的 网 络 开销 就 不 算 大 。 而 对 于 诸如 cogroup() 和 
join() 这 样 的 二 元 操作 ， 预 先进 行 数 据 分 区 会 导致 其 中 至 少 一 个 RDD (使 用 已 知 分 区 器 


















































注 3: Python API 没有 提供 查询 分 区 方式 的 方法 ， 但 是 Spark 内 部 仍然 会 利用 已 有 的 分 区 信息 。 
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的 那个 RDD) 不 发 生 数 据 混 洗 。 如 果 两 个 RDD 使 用 同样 的 分 区 方式 ， 并 且 它 们 还 缓存 在 
同样 的 机 器 上 (比如 一 个 RDD 是 通过 mapValues() 从 另 一 个 RDD 中 创建 出 来 的 ， 这 两 个 
RDD 就 会 拥有 相同 的 键 和 分 区 方式 )， 或 者 其 中 一 个 RDD 还 没有 被 计算 出 来 ， 那 么 跨 节 
点 的 数据 混 洗 就 不 会 发 生 了 。 











4.5.3 ”影响 分 区 方式 的 操作 

Spark 内 部 知道 各 操作 会 如 何 影 响 分 区 方式 ， 并 将 会 对 数据 进行 分 区 的 操作 的 结果 RDD 自 
动 设置 为 对 应 的 分 区 器 。 例 如 ， 如 果 你 调用 join() 来 连接 两 个 RDD， 由 于 键 相 同 的 元 素 
会 被 哈 希 到 同一 台 机 器 上 ，Spark 知道 输出 结果 也 是 哈 希 分 区 的 ， 这 样 对 连接 的 结果 进行 
诸如 reduceByKey() 这 样 的 操作 时 就 会 明显 变 快 。 


不 过 ， 转 化 操作 的 结果 并 不 一 定 会 按 已 知 的 分 区 方式 分 区 ， 这 时 输出 的 RDD 可 能 就 会 没 
有 设置 分 区 器 。 例 如 ， 当 你 对 一 个 哈 希 分 区 的 键 值 对 RDD 调用 map() 时 ， 由 于 传 给 nap() 
的 函数 理论 上 可 以 改变 元 素 的 键 ， 因 此 结果 就 不 会 有 固定 的 分 区 方式 。Spark 不 会 分 析 
你 的 函数 来 判断 键 是 否 会 被 保留 下 来 。 不 过 ，Spark 提供 了 另外 两 个 操作 mapvatues() 和 
flatMapValues() 作为 替代 方法 ， 它 们 可 以 保证 每 个 二 元 组 的 键 保持 不 变 。 


这 里 列 出 了 所 有 会 为 生成 的 结果 RDD 设 好 分 区 方式 的 操作 : cogroup()、groupWith()、 
join()、 leftOuterJoin()、rightOuterJoin()、 groupByKey()、reduceByKey()、 
combineByKey()、partitionBy()、sort()、mapValues() (如 果 父 RDD 有 分 区 方式 的 话 )、 
flatMapValues() (如 果 父 RDD 有 分 区 方式 的 话 ) ， 以 及 filter() (如 果 父 RDD 有 分 区 方 
式 的话 )。 其 他 所 有 的 操作 生成 的 结果 都 不 会 存在 特定 的 分 区 方式 。 


最 后 ， 对 于 二 元 操作 ， 输 出 数据 的 分 区 方式 取决 于 父 RDD 的 分 区 方式 。 默认 情 况 下 ， 结 

会 采用 哈 希 分 区 ， 分 区 的 数量 和 操作 的 并 行 度 一 样 。 不 过 ， 如 果 其 中 的 一 个 父 RDD 已 
经 设置 过 分 区 方式 ， 那 么 结果 就 会 采用 那 种 分 区 方式 ， 如 果 两 个 父 RDD 都 设置 过 分 区 广 
式 ， 结 果 RDD 会 采用 第 一 个 父 RDD 的 分 区 方式 。 
























































































































































4.5.4 示例 : PageRank 

PageRank 是 一 种 从 RDD 分 区 中 获 益 的 更 复杂 的 算法 ， 我 们 以 它 为 例 进 行 分 析 。PageRank 
算法 是 以 Google 的 拉 里 : 佩 吉 (Larry Page) 的 名 字 命 名 的 ， 用 来 根据 外 部 文档 指向 一 个 
文档 的 链接 ， 对 集合 中 每 个 文档 的 重要 程度 赋 一 个 度量 值 。 该 算法 可 以 用 于 对 网 页 进行 排 
序 ， 当然， 也 可 以 用 于 排序 科技 文章 或 社交 网 络 中 有 影响 的 用 户 。 


PageRank 是 执行 多 次 连接 的 一 个 迭代 算法 ， 因 此 它 是 RDD 分 区 操作 的 一 个 很 好 的 用 例 。 
算法 会 维护 两 个 数据 集 : 一 个 由 (pageID， LinkList) 的 元 素 组 成 ， 包 含 每 个 页 面 的 相 邻 页 
面 的 列表 ， 另 一 个 由 (pageID， rank) 元 素 组 成 ， 包 含 每 个 页 面 的 当前 排序 值 。 它 按 如 下 步 
又 进行 计算 。 
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(1) 将 每 个 页 面 的 排序 值 初始 化 为 1.9。 

(2) 在 每 次 返 代 中 ， 对 页 面 p， 向 其 每 个 相 邻 页 面 《 有 直接 链接 的 页 面 ) 发 送 一 个 值 为 
rank(p)/numNeighbors(p) 的 贡献 值 。 

(3) 将 每 个 页 面 的 排序 值 设 为 0.15 + 0.85 * contributionsReceived。 







































































最 后 两 步 会 重复 几 个 循环 ， 在 此 过 程 中 ， 算 法 会 逐渐 收敛 于 每 个 页 面 的 实际 PageRank 值 。 
在 实际 操作 中 ， 收 敛 通常 需要 大 约 10 轮 和 迭代。 








例 4-25 给 出 了 使 用 Spark 实现 PageRank 的 代码 。 


例 4-25: Scala 版 PageRank 
// 假设 相 邻 页 面 列表 以 Spark objectFile 的 形式 存储 
val links = sc.objectrFile[(String, Seq[String])]("links") 
.partitionBy(new Hashpartitioner(100)) 
.persist() 





// 将 每 个 页 面 的 排序 值 初始 化 为 1.9; 由 于 使 用 mapValues, 生 成 的 RDD 
// 的 分 区 方式 会 和 "Links "的 一 样 


var ranks = links.mapValues(v => 1.0) 





// 运行 10 轮 PageRank 达 代 
for(i <- 0 until 10) { 
val contributions = links.join(ranks).flatMap { 
case (pageld, (links, rank)) => 
Links.map(dest => (dest, rank / links.size)) 
} 


ranks = contributions.reduceByKey((x, y) => x + y).mapValues(v => 0.15 + 0.85*v) 


} 


// 写 出 最 终 排名 
ranks.saveAsTextFile("ranks") 





这 就 行 了 ! 算法 从 将 ranksRDD 的 每 个 元 素 的 值 初始 化 为 1.9 开始 ， 然 后 在 每 次 迭代 中 不 
断 更 新 ranks 变量 。 在 Spark 中 编写 PageRank 的 主体 相当 简单 :首先 对 当前 的 ranksRDD 
和 静态 的 LinksRDD 进行 一 次 join() 操作 ， 来 获取 每 个 页 面 ID 对 应 的 相 邻 页 面 列表 和 当 
前 的 排序 值 ， 然 后 使 用 flatMap 创建 出 “contributions” 来 记录 每 个 页 面 对 各 相 邻 页 面 的 贡 
献 。 然 后 再 把 这 些 贡献 值 按照 页 面 ID (根据 获得 共享 的 页 面 ) 分 别 累加 起 来 ， 把 该 页 面 的 
排序 值 设 为 0.15 + 0.85 * contributionsReceived。 










































































虽然 代码 本 身 很 简单 ， 这 个 示例 程序 还 是 做 了 不 少 事情 来 确保 RDD 以 比较 高 效 的 方式 进 
行 分 区 ， 以 最 小 化 通信 开销 : 








(D) 请 注意 ，LinksRDD 在 每 次 迭代 中 都 会 和 ranks 发 生 连 接 操 作 。 由 于 Links 是 一 个 静态 
数据 集 ， 所 以 我 们 在 程序 一 开始 的 时 候 就 对 它 进行 了 分 区 操作 ， 这 样 就 不 需要 把 它 通 过 
网 络 进 行 数据 混 洗 了 。 实 际 上 ，LinksRDD 的 字 节 数 一 般 来 说 也 会 比 ranks 大 很 多 ， 毕 
况 它 包含 每 个 页 面 的 相 邻 页 面 列表 〈 由 页 面 了 p 组 成 )， 而 不 仅仅 是 一 个 Double 值 ， 枯 
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此 这 一 优化 相 比 PageRank 的 原始 实现 (例如 普通 的 MapReduce) 节约 了 相当 可 观 的 网 
络 通信 开销 。 








(2) 出 于 同样 的 原因 ， 我 们 调用 Links 的 persist() 方 法， 将 它 保 留 在 内 存 中 以 供 每 次 迭代 
使 用 。 





(3) 当 我 们 第 一 次 创建 ranks 时 ， 我 们 使 用 mapValues() 而 不 是 map() 来 保留 父 RDD (Links) 
的 分 区 方式 ， 这 样 对 它 进行 的 第 一 次 连接 操作 就 会 开销 很 小 。 











(4) 在 循环 体 中 ， 我 们 在 reduceByKey() 后 使 用 mapValues(); 因为 reduceByKey() 的 结果 已 
经 是 哈 希 分 区 的 了 ， 这 样 一 来 ， 下 一 次 循环 中 将 映射 操作 的 结果 再 次 与 Links 进行 连接 
操作 时 就 会 更 加 高 效 。 


为 了 最 大 化 分 区 相关 优化 的 潜在 作用 ， 你 应 该 在 无 需 改变 元 素 的 键 时 尽量 使 
用 mapValues() 或 flatMapValues()。 





4.5.5” 自 定义 分 区 方式 

虽然 Spark 提供 的 HashPartitioner 与 RangePartitioner 已 经 能 够 满足 大 多 数 用 例 ， 但 
Spark 还 是 允许 你 通过 提供 一 个 自 定义 的 Partitioner 对 象 来 控制 RDD 的 分 区 方式 。 这 可 
以 让 你 利用 领域 知识 进一步 减少 通信 开销 。 





举 个 例子 ， 假 设 我 们 要 在 一 个 网 页 的 集合 上 运行 前 一 节 中 的 PageRank 算法 。 在 这 里 ， 每 
个 页 面 的 ID (RDD 中 的 键 ) 是 页 面 的 URL。 当 我 们 使 用 简单 的 哈 希 函数 进行 分 区 时 ， 拥 
有 相似 的 URL 的 页 面 (比如 http:/www.cnn.com/WORLD 和 http://www.cnn.com/US) 可 能 
会 被 分 到 完全 不 同 的 节点 上 。 然 而 ， 我 们 知道 在 同一 个 域名 下 的 网 页 更 有 可 能 相互 链接 。 
由 于 PageRank 需要 在 每 次 达 代 中 从 每 个 页 面向 它 所 有 相 邻 的 页 面 发 送 一 条 消息 ， 因 此 把 
这 些 页 面 分 组 到 同一 个 分 区 中 会 更 好 。 可 以 使 用 自 定义 的 分 区 器 来 实现 仅 根据 域名 而 不 是 
整个 URL 来 分 区 。 












































要 实现 自 定义 的 分 区 器 ， 你 需要 继承 org.apache.spark.Partitioner 类 并 实现 下 面 三 个 方法 。 














。 numpartitions: Int: 返回 创建 出 来 的 分 区 数 。 

。 getpPartition(key: Any): Int: 返回 给 定 键 的 分 区 编号 (0 到 numPartitions-1)。 

。 equals(): Java 判断 相等 性 的 标准 方法 。 这 个 方法 的 实现 非常 重要 ，Spark 需要 用 这 个 
方法 来 检查 你 的 分 区 器 对 象 是 否 和 其 他 分 区 器 实例 相同 ， 这 样 Spark 才 可 以 判断 两 个 
RDD 的 分 区 方式 是 否 相 同 。 











有 一 个 问题 需要 注意 ， 当 你 的 算法 依赖 于 Java 的 hashCode() 方法 时 ， 这 个 方法 有 可 能 会 
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返回 负数 。 你 需要 十 分 谨慎 ， 确 保 getPartition() 永远 返回 一 个 非 负数 。 








例 4-26 展示 了 如 何 编写 一 个 前 面 构思 的 基于 域名 的 分 区 器 ， 这 个 分 区 器 只 对 URL 中 的 域 
名 部 分 求 哈 希 。 


例 4-26: Scala 自 定 义 分 区 方式 


class DomainNamepPartitioner(numparts: Int) extends Partitioner { 
override def numpartitions: Int = numparts 
override def getpPartition(key: Any): Int = { 
val domain = new Java.net.URL(key.toString).getHost() 
val code = (domain.hashCode % numpartitions) 
if(code < 0) { 
code + numPartitions // 使 其 非 负 
}else{ 
code 


} 
} 
// 用 来 让 Spark 区 分 分 区 函数 对 人 象 的 Java equals 方 法 


override def equals(other: Any): Boolean = other match { 
case dnp: DomainNamePartitioner => 
dnp.numpartitions == numPartitions 
Case _ => 
false 


























} 
} 


注意 ， 在 equals() 方法 中 ， 使 用 Scala 的 模式 匹配 操作 符 (match) 来 检查 other 是 否 是 
DomainNamePartitioner， 并 在 成 立时 自动 进行 类 型 转换 ， 这 和 Java 中 的 instanceof() 是 
一 样 的 。 








使 用 自 定义 的 Partitioner 是 很 容易 的 : 只 要 把 它 传 给 partitionBy() 方法 即 可 。Spark 中 
有 许多 依赖 于 数据 混 洗 的 方法 ， 比 如 join() 和 groupByKkey()， 它 们 也 可 以 接收 一 个 可 选 的 
Partitioner 对 象 来 控制 输出 数据 的 分 区 方式 。 


在 Java 中 创建 一 个 自 定义 Partitioner 的 方法 与 Scala 中 的 做 法 非常 相似 : 只 需要 扩展 
spark.Partitioner 类 并 且 实 现 必 要 的 方法 即 可 。 











在 Python 中 ， 不 需要 扩展 Partitioner 类 ， 而 是 把 一 个 特定 的 哈 希 函数 作为 一 个 额外 的 参 
数 传 给 RDD.partitionBy() 函数 ， 如 例 4-27 所 示 。 


例 4-27: Python 自 定义 分 区 方式 


import urlparse 


def hash_domain(url): 
return hash(urlparse.urlparse(url).netloc) 


rdd.partitionBy(20，hash_domain) # 创建 20 个 分 





xl 

















注意 ， 这 里 你 所 传 过 去 的 哈 希 国 数 会 被 与 其 他 RDD 的 分 区 函数 区 分 开 来 。 如 果 你 想 要 对 
多 个 RDD 使 用 相同 的 分 区 方式 ， 就 应 该 使 用 同一 个 函数 对 象 ， 比 如 一 个 全 局 函数 ， 而 不 
是 为 每 个 RDD 创建 一 个 新 的 函数 对 象 。 





4.6 总 结 


本 章 我 们 学 习 了 如 何 使 用 Spark 提供 的 专门 的 函数 来 操作 键 值 对 数据 。 第 3 章 中 讲 到 的 技 
巧 也 同样 适用 于 pair RDD。 在 下 一 章 中 我 们 会 介绍 如 何 读 取 和 保存 数据 。 
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第 5 章 


数据 读 取 与 保存 





本 章 对 于 工程 师 和 数据 科学 家 都 较为 实用 。 工 程 师 会 了 解 到 更 多 的 输出 格式 ， 有 利于 找到 
非常 适合 用 于 下 游 处 理 程序 的 格式 。 数 据 科学 家 则 可 能 更 关心 数据 的 现 有 的 组 织 形式 .。 


5.1 动机 


我 们 已 经 学 了 很 多 在 Spark 中 对 已 分 发 的 数据 执行 的 操作 。 到 目前 为 止 ， 所 展示 的 示例 都 
是 从 本 地 集合 或 者 普通 文件 中 进行 数据 读 取 和 保存 的 。 但 有 了 时候， 数据 量 可 能 大 到 无 法 放 
在 一 台 机 器 中 ， 这 时 就 需要 探索 别 的 数据 读 取 和 保存 的 方法 了 。 


Spark 支持 很 多 种 输入 输出 源 。 一 部 分 原因 是 Spark 本 身 是 基于 Hadoop 生态 圈 而 构建 ， 特 
别 是 Spark 可 以 通过 Hadoop MapReduce 所 使 用 的 InputFormat 和 0utputFormat 接口 访问 
数据 ， 而 大 部 分 常见 的 文件 格式 与 存储 系统 (例如 S3、HDFS、Cassandra、HBase 等 ) 都 
支持 这 种 接口 。' 5.2.6 节 展 示 了 如 何 直接 使 用 这 些 格式 。 


不 过 ， 基 于 这 些 原始 接口 构建 出 的 高 层 API 会 更 常用 。 幸 运 的 是 ，Spark 及 其 生态 系统 提 
供 了 很 多 可 选 方案 。 本 章 会 介绍 以 下 三 类 常见 的 数据 源 。 


。 文件 格式 与 文件 系统 
对 于 存储 在 本 地 文件 系统 或 分 布 式 文件 系统 (比如 NFS、HDFS、Amazon S3 等 ) 中 的 
数据 ，Spark 可 以 访问 很 多 种 不 同 的 文件 格式 ， 包 括 文本 文件 、JSON、SequenceFile， 
以 及 protocol buffer。 我 们 会 展示 几 种 常见 格式 的 用 法 ， 以 及 Spark 针对 不 同文 件 系统 
的 配置 和 压缩 选项 。 


























注 1: InputFormat 和 OutputFormat 是 MapReduce 中 用 来 连接 数据 源 的 Java API。 
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。 Spark SQL 中 的 结构 化 数据 源 
第 9 章 会 介绍 Spark SQL 模块 ， 它 针对 包括 JSON 和 Apache Hive 在 内 的 结构 化 数据 
源 ， 为 我 们 提供 了 一 套 更 加 简洁 高 效 的 API。 此 处 会 粗略 地 介绍 一 下 如 何 使 用 Spark 
SQL， 而 大 部 分 细节 将 留 到 第 9 章 讲解 。 

















。 数据 库 与 键 值 存储 
本 章 还 会 概述 Spark 自 带 的 库 和 一 些 第 三 方 库 ， 它 们 可 以 用 来 连接 Cassandra、HBase、 
Elasticsearch 以 及 JDBC 源 。 











这 里 选择 的 大 多 数 方法 都 支持 Spark 所 支持 的 三 种 编程 语言 ， 但 是 还 是 有 一 些 库 只 支持 
Java 和 Scala。 这 种 情况 我 们 会 专门 指出 。 


5.2 文件 格式 


Spark 对 很 多 种 文件 格式 的 读 取 和 保存 方式 都 很 简单 。 从 诸如 文本 文件 的 非 结构 化 的 文件 ， 
到 诸如 JSON 格式 的 半 结 构 化 的 文件 ， 再 到 诸如 SequenceFile 这 样 的 结构 化 的 文件 ，Spark 
都 可 以 支持 〈 见 表 5-1)。Spark 会 根据 文件 扩展 名 选择 对 应 的 处 理 方式 。 这 一 过 程 是 封装 
好 的 ， 对 用 户 透 明 。 















































表 5-1: Spark 支 持 的 一 些 常见 格式 




















格式 名 称 结构 化 备注 

文本 文件 否 普通 的 文本 文件 ， 每 行 一 条 记录 

JSON 半 结 构 化 ”常见 的 基于 文本 的 格式 ， 半 结构 化 ， 大 多 数 库 都 要 求 每 行 一 条 记录 
CSV 非常 常见 的 基于 文本 的 格式 ， 通 常 在 电子 表格 应 用 中 使 用 





























是 
SequenceFiles 是 一 种 用 于 键 值 对 数据 的 常见 Hadoop 文件 格式 
Protocol buffers “是 一 种 快速 、 节 约 空间 的 跨 语 言 格式 
对 象 文 件 是 用 来 将 Spark 作业 中 的 数据 存储 下 来 以 让 共享 的 代码 读 取 。 改 变 类 的 时 候 
它 会 失效 ， 因 为 它 依赖 于 Java 序列 化 























除了 Spark 中 直接 支持 的 输出 机 制 ， 还 可 以 对 键 数据 (或 成 对 数据 ) 使 用 Hadoop 的 新 旧 
文件 API。 由 于 Hadoop 接口 要 求 使 用 键 值 对 数据 ， 所 以 也 只 能 这 样 用 ， 即 使 有 些 格式 事 
实 上 忽略 了 键 。 对 于 那些 会 忽视 键 的 格式 ， 通 常 使 用 假 的 键 (比如 nul1)。 


5.2.1 文本 文件 

在 Spark 中 读 写 文本 文件 很 容易 。 当 我 们 将 一 个 文本 文件 读 取 为 RDD 时 ， 输 入 的 每 一 行 
都 会 成 为 RDD 的 一 个 元 素 。 也 可 以 将 多 个 完整 的 文本 文件 一 次 性 读 取 为 一 个 pair RDD， 
其 中 键 是 文件 名 ， 值 是 文件 内 容 。 












































1. 读 取 文 本 文件 
只 需要 使 用 文件 路 径 作 为 参数 调用 SparkContext 中 的 textFile() 国 数 ， 就 可 以 读 取 一 个 文 
本 文件 ， 如 例 5-1 至 例 5-3 所 示 。 如 果 要 控制 分 区 数 的 话 ， 可 以 指 


例 5-1: 在 Python 中 读 取 一 个 文本 文件 


input = sc.textFile("file:///home/holden/repos/spark/README.md") 




















例 5-2: 在 Scala 中 读 取 一 个 文本 文件 


val input = sc.textFile("file:///home/holden/repos/spark/README.md") 


例 5-3: 在 Java 中 读 取 一 个 文本 文件 
JavaRDD<String> input = sc.textFile("file:///home/holden/repos/spark/README.md") 




















定 minPartitions。 


如 果 多 个 输入 文件 以 一 个 包含 数据 所 有 部 分 的 目录 的 形式 出 现 ， 可 以 用 两 种 方式 来 处 
理 。 可 以 仍 使 用 textFile 国 数 ， 传 递 目录 作为 参数 ， 这 样 它 会 把 各 部 分 都 读 取 到 RDD 


中 。 有 时 候 有 必要 知道 数据 的 各 部 分 分 别 来 自 哪 个 文人 


数据 )， 有 


wholeTextFiles() 方法 ， 该 方法 会 返 





时 候 则 希望 同时 处 理 整 个 文件 。 如 果 文 从 








回 一 个 pair RDD， 其 中 键 是 输 


F (比如 将 键 放 在 文件 名 中 的 时 间 
足够 小 ， 那 么 可 以 使 用 SparkContext. 





入 文件 的 文件 名 。 


wholeTextFiles() 在 每 个 文件 表示 一 个 特定 时 间 段 内 的 数据 时 非常 有 用 。 如 果 有 表示 不 同 
阶段 销售 数据 的 文件 ， 则 可 以 很 容易 地 求 出 每 个 阶段 的 平均 值 ， 如 例 5-4 所 示 。 


例 5-4: 在 Scala 中 求 每 个 文件 的 平均 值 
val input = sc.wholeTextFiles("file://home/holden/salesFiles") 
val result = input.mapValues{y => 





val 


nums = y.split(" ").map(x => x.toDouble) 


Nums.sum / nums.size.toDouble 


} 























Spark 支持 读 取 给 定 目录 中 的 所 有 文件 ， 以 及 在 输入 路 径 中 使 用 通 配 字符 
(如 part-*.txt)。 大 规模 数据 集 通 常 存放 在 多 个 文件 中 ， 因 此 这 一 特性 很 有 
用 ， 尤 其 是 在 同一 目录 中 存在 一 些 别 的 文件 〈 比 如 成 功 标 记 文件 ) 的 时 候 。 























2. 保存 文本 文件 
输出 文本 文件 也 相当 简单 。 例 5-5 中 演示 的 saveAsTextFile() 方法 接收 一 个 路 径 ， 并 将 


RDD 中 的 内 容 都 输入 到 路 径 对 应 的 文 从 





目录 下 输 


们 不 能 控制 数据 的 哪 一 部 分 输出 到 哪个 文件 中 ， 不 过 有 些 输 











多 个 文件 。 这 样 ，Spark 就 可 以 从 多 个 节点 上 并 行 输 晶 








例 5-5: 在 Python 中 将 数据 保存 为 文本 文件 


result.saveAsTextFile(outputFile) 





F 中 。Spark 将 传 入 的 路 径 作为 目录 对 待 ， 会 在 那个 


上 了 。 在 这 个 方法 中 ， 我 


上 格式 支持 控制 。 
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5.2.2 JSON 


JSON 是 一 种 使 用 较 广 的 半 结 构 化 数据 格式 。 读 取 JSON 数据 的 最 简单 的 方式 是 将 数据 
作为 文本 文件 读 取 ， 然 后 使 用 JSON 解析 器 来 对 RDD 中 的 值 进行 映射 操作 。 类 似 地 ， 也 
可 以 使 用 我 们 喜欢 的 JSON 序列 化 库 来 将 数据 转 为 字符 串 ， 然 后 将 其 写 出 去 。 在 Java 和 
Scala 中 也 可 以 使 用 一 个 自 定义 Hadoop 格式 来 操作 JSON 数据 。9.3.3 市 还 会 展示 如 何 使 用 
Spark SQL 读 取 JSON 数据 。 

1. 读 取 JSON 

将 数据 作为 文本 文件 读 取 ， 然 后 对 JSON 数据 进行 解析 ， 这 样 的 方法 可 以 在 所 有 支持 的 
编程 语言 中 使 用 。 这 种 方法 假设 文件 中 的 每 一 行 都 是 一 条 JSON 记录 。 如 果 你 有 跨行 的 
JSON 数据 ， 你 就 只 能 读 入 整个 文件 ， 然 后 对 每 个 文件 进行 解析 。 如 果 在 你 使 用 的 语言 
构建 一 个 JSON 解析 器 的 开销 较 大 ， 你 可 以 使 用 mapPartitions() 来 重用 解析 器 。 请 参考 
6.4 市 了 解 详情 。 

我 们 使 用 的 这 三 种 编程 语言 中 有 大 量 可 用 的 JSON 库 ， 为 了 简单 起 见 ， 这 里 只 为 每 种 语言 
介绍 一 种 库 。Python 中 使 用 的 是 内 建 的 库 (https://docs.python.org/2/library/json.html， 见 
例 $-6) ， 而 在 Java 和 Scala 中 则 会 使 用 Jackson (http:Wjackson.codehaus.org/， 见 例 5-7 和 
例 5-8)。 之 所 以 选择 这 些 库 ， 是 因为 它们 性 能 还 不 错 ， 而 且 使 用 起 来 比较 简单 。 如 果 你 
在 解析 阶段 花费 了 大 量 的 时 间 ， 你 就 应 该 选择 Scala (http://engineering.o0yala.com/blog/ 
comparing-scala-json-libraries) 或 Java (http://geokoder.com/java-json-libraries-comparison) 中 


别 的 JSON 库 。 
例 5-6: 在 Python 中 读 取 非 结 构 化 的 JSON 


import json 
data = input.map(lambda x: json.Loads(x)) 






























































在 Scala 和 Java 中， 通常 将 记录 读 入 到 一 个 代表 结构 信息 的 类 中 。 在 这 个 过 程 中 可 能 还 需 
要 略 过 一 些 无 效 的 记录 。 下 面 以 将 记录 读 取 为 Person 类 作为 一 个 例子 。 


例 5-7: 在 Scala 中 读 取 JSON 


import com.fasterxml.jackson.module.scala.DefaultScalaModule 

import com.fasterxmL.jackson.moduLe.scaLa.experimentaL.ScaLa0bjectMapper 
import com.fasterxmL.jackson.databind.0bjectMapper 

import com.fasterxml.jackson.databind.DeserializationFeature 




















case class Person(name: String，LovesPandas: Boolean) // 必须 是 顶级 类 








// 将 其 解析 为 特定 的 case class。 使 用 flatMap, 通 过 在 遇 到 问题 时 返回 空 列表 (None) 
// 来 处 理 错 误 , 而 在 没有 问题 时 返回 包含 一 个 元 素 的 列表 (Some(_)) 
val result = input.flatMap(record => { 
try { 
Some(mapper .readValue(record, classOf[Person])) 
} catch { 
case e: Exception => None 


}}) 
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例 5-8: 在 Java 中 读 取 JSON 


class ParseJson impLements FlatMapFunction<Iterator<String>, Person> { 
public Iterable<Person> call(Iterator<String> lines) throws Exception { 
ArrayList<Person> people = new ArrayList<Person>(); 
ObjectMapper mapper = new ObjectMapper(); 
while (lines.hasNext()) { 
String line = lines.next(); 
try { 
people.add(mapper .readValue(line, Person.class)); 
} catch (Exception e) { 
// 跳 过 失败 的 数据 
} 
} 
return people; 
} 
} 
JavaRDD<String> input = sc.textFile("file.json"); 
JavaRDD<Person> result = input.mapPartitions(new ParseJson()); 





处 理 格式 不 正确 的 记录 有 可 能 会 引起 很 严重 的 问题 ， 尤 其 对 于 像 JSON 这 样 
的 半 结 构 化 数据 来 说 。 对 于 小 数据 集 来 说 ， 可 以 接受 在 遇 到 错误 的 输入 时 停 
止 程序 (程序 失败 )， 但 是 对 于 大 规模 数据 集 来 说 ， 格 式 错 误 是 家 常 便 饭 。 如 
果 选 择 跳 过 格式 不 正确 的 数据 ， 你 应 该 尝试 使 用 累加 器 来 跟踪 错误 的 个 数 。 


























2. 保存 JSON 

写 出 JSON 文件 比 读 取 它 要 简单 得 多 ， 因 为 不 需要 考虑 格式 错误 的 数据 ， 并 且 也 知道 要 写 
出 的 数据 的 类 型 。 可 以 使 用 之 前 将 字符 串 RDD 转 为 解析 好 的 JSON 数据 的 库 ， 将 由 结构 
化 数据 组 成 的 RDD 转 为 字符 串 RDD， 然 后 使 用 Spark 的 文本 文件 API 写 出 去 。 








假设 我 们 要 选 出 喜爱 熊猫 的 人 ， 就 可 以 从 第 一 步 中 获取 输入 数据 ， 然 后 筛选 出 喜爱 熊猫 的 
人 ， 如 例 5-9 至 例 5-11 所 示 。 


例 5-9: 在 Python 保存 为 JSON 


(data.filter(lambda x: x["LovesPandas"]).map(Lambda x: json.dumps(x)) 
.SaveAsTextFile(outputrFile)) 


例 5-10: 在 Scala 中 保存 为 JSON 


result.filter(p => P.lovesPandas).map(mapper .writeValueAsString(_)) 
.SaveAsTextFile(outputFile) 


例 5-11: 在 Java 中 保存 为 JSON 


class Write]Json implements FlatMapFunction<Iterator<Person>, String> { 
public Iterable<String> call(Iterator<Person> people) throws Exception { 
ArrayList<String> text = new ArrayList<String>(); 
ObjectMapper mapper = new ObjectMapper(); 
while (people.hasNext()) { 
Person person = people.next(); 
text.add(mapper .writeValueAsString(person)); 
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} 


return text; 
} 
} 


JavaRDD<Person> result = input.mapPartitions(new ParseJson()).filter( 
new LikesPandas() ); 

JavaRDD<String> formatted = resuLt.mapPartitions(new WriteJson()); 

formatted.saveAsTextFile(outfile); 


这 样 一 来 ， 就 可 以 通过 已 有 的 操作 文本 数据 的 机 制 和 JSON 库 ， 使 用 Spark 轻易 地 读 取 和 
保存 JSON 数据 了 。 


5.2.3 ”过 号 分 隔 值 与 制 表 符 分 隔 值 

逗号 分 隔 值 (CSV) 文件 每 行 都 有 固定 数目 的 字段 ， 字 段 间 用 逗号 隔 开 (在 制 表 符 分 隔 值 
文件 ， 即 TSYV 文件 中 用 制 表 符 隔 开 )。 记 录 通 常 是 一 行 一 条 ， 不 过 也 不 总 是 这 样 ， 有 时 也 
可 以 跨行 。CSYV 文件 和 TSV 文件 有 时 支持 的 标准 并 不 一 致 ， 主 要 是 在 处 理 换 行 符 、 转 义 
字符 、 非 ASCII 字符 、 非 整数 值 等 方面 。CSV 原生 并 不 支持 丰 套 字段 ， 所 以 需要 手动 组 合 
和 分 解 特定 的 字段 。 


与 JSON 中 的 字段 不 一 样 的 是 ， 这 里 的 每 条 记录 都 没有 相关 联 的 字段 名 ， 只 能 得 到 对 应 的 
序号 。 常 规 做 法 是 使 用 第 一 行 中 每 列 的 值 作为 字段 名 。 
































1. 读 取 CSV 

读 取 CSV/TSV 数据 和 读 取 JSON 数据 相似 ， 都 需要 先 把 文件 当 作 普 通 文本 文件 来 读 取 数 
据 ， 再 对 数据 进行 处 理 。 由 于 格式 标准 的 缺失 ， 同 一 个 库 的 不 同 版 本 有 时 也 会 用 不 同 的 方 
式 处 理 输入 数据 。 


与 JSON 一 样 ，CSV 也 有 很 多 不 同 的 库 ， 但 是 只 在 每 种 语言 中 使 用 一 个 库 。 同 样 ， 对 于 
Python 我 们 会 使 用 自 带 的 csv 库 (https://docs.python.org/2/library/csv.html)。 在 Scala 和 Java 
中 则 使 用 opencsv 库 (http://opencsv.sourceforge.net/) 。 





























Hadoop InputFormat 中 的 CSVInputFormat (http://docs.oracle.com/cd/E27101_01/ 
appdev.10/e20858/oracle/hadoop/loader/examples/CSVInputFormat.html) 也 可 
以 用 于 在 Scala 和 Java 中 读 取 CSV 数据 。 不 过 它 不 支持 包含 换行 符 的 记录 。 


如 果 恰 好 你 的 CSV 的 所 有 数据 字段 均 没 有 包含 换行 符 ， 你 也 可 以 使 用 textFitLe() 读 取 并 
解析 数据 ， 如 例 5-12 至 例 5-14 所 示 。 


下 





例 5-12: 在 Python 中 使 用 textFile() 读 取 CSV 


import csv 
import StringI0 
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def loadRecord(line): 
""" 解 析 一 行 CSV 记 录 """ 
input = StringI0.StringI0(line) 
reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"]) 
return reader.next() 
input = sc.textFile(inputFile).map(loadRecord) 


例 5-13: 在 Scala 中 使 用 textrFile() 读 取 CSV 


import Java.io.StringReader 
import au.com.bytecode.opencsv.CSVReader 


val input = sc.textFile(inputFile) 

val result = input.map{ line => 
val reader = new CSVReader(new StringReader(line)); 
reader .readNext(); 


} 
例 5-14: 在 Java 中 使 用 textFile() 读 取 CSV 


import au.Com.bytecode.opencsv.CSVReader ; 
import Java.io.StringReader; 


public static class ParseLine implements Function<String, String[]> { 
public String[] call(String line) throws Exception { 
CSVReader reader = new CSVReader(new StringReader(line)); 
return reader.readNext(); 
} 
} 


JavaRDD<String> csvFilel1 = sc.textrFile(inputFile); 
JavaPairRDD<String[]> csvData = csvFileli.map(new ParseLine()); 


如 有 果 在 字段 中 能 有 换行 符 ， 就 需要 完整 读 和 每 个 文件 ， 然 后 解析 各 段 ， 如 例 5-15 至 例 5-17 
所 示 。 如 果 每 个 文件 都 很 大 ， 读 取 和 解析 的 过 程 可 能 会 很 不 幸 地 成 为 性 能 瓶颈 。 读 取 文 本 
文件 的 其 他 方法 在 5.2.1 节 中 也 有 所 提 及 。 
































例 5-15: 在 Python 中 完整 读 取 CSV 
def LoadRecords(fLLeNameContents ) : 
""" 读 取 给 定 文件 中 的 所 有 记录 """ 
input = StringI0.StringIO(fLLeNameContents[1]) 
reader = csv.DictReader(input, fieldnames=["name", "favoriteAnimal"]) 
return reader 
fullFileData = sc.wholeTextFiles(inputFile).flatMap(loadRecords) 


例 5-16: 在 Scala 中 完整 读 取 CSV 


case class Person(name: String, favoriteAnimal: String) 


val input = sc.wholeTextFiles(inputFile) 

val result = input.flatMap{ case (_, txt) => 
val reader = new CSVReader(new StringReader (txt)); 
reader .readAll().map(x => Person(x(0), x(1))) 

} 
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例 5-17: 在 Java 中 完整 读 取 CSV 
public static class ParseLine 
implements FlatMapFunction<Tuple2<String, String>, String[]> { 
public Iterable<String[]> call(Tuple2<String, String> file) throws Exception { 
CSVReader reader = new CSVReader(new StringReader(file. 2())); 
return reader.readAll(); 
} 
} 


JavaPairRDD<String, String> csvData = sc.wholeTextFiles(inputFile); 
JavaRDD<String[]> keyedRDD = csvData.flatMap(new ParseLine()); 





如 果 只 有 一 小 部 分 输入 文件 ， 你 需要 使 用 wholeFile() 方法 ， 可 能 还 需要 对 
输入 数据 进行 重新 分 区 使 得 Spark 能 够 更 高 效 地 并 行 化 执行 后 续 操作 。 











2. 保存 CSV 

和 JSON 数据 一 样 ， 写 出 CSV/TSYV 数据 相当 简单 ， 同 样 可 以 通过 重用 输出 编码 器 来 加 
速 。 由 于 在 CSV 中 我 们 不 会 在 每 条 记录 中 输出 字段 名 ， 因 此 为 了 使 输出 保持 一 致 ， 需 要 
创建 一 种 映射 关系 。 一 种 简单 做 法 是 写 一 个 函数 ， 用 于 将 各 字段 转 为 指定 顺序 的 数组 。 在 
Python 中 ， 如 果 输 出 字典 ，CSYV 输出 器 会 根据 创建 输出 器 时 给 定 的 fieldnames 的 顺序 帮 
我 们 完成 这 一 行为 。 























我 们 所 使 用 的 CSV 库 要 输出 到 文件 或 者 输出 器 ， 所 以 可 以 使 用 Stringwriter 或 StringI0 
来 将 结果 放 到 RDD 中 ， 如 例 5-18 和 例 5-19 所 示 。 





例 5-18: 在 Python 中 写 CSV 

def writeRecords(records) : 
""" 写 出 一 些 CSV 记 录 """ 
output = StringI0.StringI0() 
writer = csv.DictWriter(output, fieldnames=["name", "favoriteAnimal"]) 
for record in records: 

writer .writerow(record) 

return [output.getvalue()] 





pandaLovers.mapPartitions(writeRecords).saveAsTextFile(outputFile) 


例 5-19: 在 Scala 中 写 CSV 


pandaLovers.map(person => List(person.name, person.favoriteAnimal).toArray) 
.mapPartitions{people => 
val stringWriter = new StringWriter(); 
val csvWriter = new CSVWriter(stringWriter); 
csvWriter.writeAll(people. toList) 
Iterator(stringWriter.toString) 
}.saveAsTextFile(outFile) 























你 可 能 已 经 注意 到 ， 前 面 的 例子 只 能 在 我 们 知道 所 要 输出 的 所 有 字段 时 使 用 。 然 而 ， 如 果 
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一 些 字段 名 是 在 运行 时 由 用 户 输入 决定 的 ， 就 要 使 用 别 的 方法 了 。 最 简单 的 方法 是 遍历 所 
有 的 数据 ， 提 取 不 同 的 键 ， 然 后 分 别 输出 。 





5.2.4 SeduenceFile 


SequenceFile 是 由 没有 相对 关系 结构 的 键 值 对 文件 组 成 的 常用 Hadoop 格式 。SequenceFile 
文件 有 同步 标记 ，Spark 可 以 用 它 来 定位 到 文件 中 的 某 个 点 ， 然 后 再 与 记录 的 边界 对 
齐 。 这 可 以 让 Spark 使 用 多 个 节点 高 效 地 并 行 读 取 SequenceFile 文件 。SequenceFile 也 是 
Hadoop MapReduce 作业 中 常用 的 输入 输出 格式 ， 所 以 如 果 你 在 使 用 一 个 已 有 的 Hadoop 系 
统 ， 数 据 很 有 可 能 是 以 SequenceFile 的 格式 供 你 使 用 的 。 











由 于 Hadoop 使 用 了 一 套 自 定义 的 序列 化 框架 ， 因 此 SequenceFile 是 由 实现 Hadoop 的 Writable 
接口 的 元 素 组 成 。 表 5-2 列 出 了 一 些 常 见 的 数据 类 型 以 及 它们 对 应 的 Wiritable 类 。 标 准 的 
经 验 法 则 是 尝试 在 类 名 的 后 面 加 上 Wiritable 这 个 词 ， 然 后 检查 它 是 否 是 org.apache.hadoop. 
io.Writable (http://hadoop.apache.org/docs/r2.4.1/api/org/apache/hadoop/io/Writable.html) 已 知 的 
子 类 。 如 果 你 无 法 为 要 写 出 的 数据 找到 对 应 的 Writable 类 型 (比如 自 定义 的 case class)， 你 可 
以 通过 重 载 org.apache.hadoop.io.Writable 中 的 readfields 和 write 来 实现 自己 的 Writable 类 。 

















Hadoop 的 RecordReader 会 为 每 条 记录 重用 同一 个 对 象 ， 因 此 直接 调用 RDD 
的 cache 会 导致 失败 ;实际 上 ， 你 只 需要 使 用 一 个 简单 的 map() 操作 然后 将 结 
果 缓 存 即 可 。 还 有 ， 许 多 Hadoop Wiritable 类 没有 实现 java.io.Serializable 
接口 ， 因 此 为 了 让 它们 能 在 RDD 中 使 用 ， 还 是 要 用 map() 来 转换 它们 。 









































表 5-2: Hadoop Writable 类 型 对 应 表 
Scala 类 型 Java 类 型 ”Hadoop Writable 类 





Int Integer Intwritable 或 VIntwritable? 
Long Long LongWritable 或 VLongWritable” 
Float Float FloatWritable 

Double Double DoubleWritable 

Boolean Boolean BooleanWritable 

Array[Byte] byte[] BytesWritable 

String String Text 

Array[T] T[] ArrayWritable<TW>’ 

List[T] List<T> ArrayWritable<TW>’ 

Map[A, B] Map<A，B> MapWritable<AW, BW>’ 




















注 2: 整 型 和 长 整 型 通常 存储 为 定 长 的 形式 。 存储 数字 12 占据 的 空间 和 存储 数字 2**30 占据 的 一 样 。 如 果 
你 有 大 量 的 小 数据 ， 你 应 该 使 用 可 变 长 的 类 型 VIntwritable 和 VLongWritable， 它 们 可 以 在 存储 较 小 
数值 时 使 用 更 少 的 位 。 

注 3: 模板 类 型 也 必须 使 用 Writable 类 型 。 
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在 Spark 1.0 以 及 更 早 版 本 中 ，SequenceFile 只 能 在 Java 和 Scala 中 使 用 ， 不 过 Spark 1.1 
加 入 了 在 Python 中 读 取 和 保存 SequenceFile 的 功能 。 但 要 注意 ， 你 还 是 需要 使 用 Java 
或 Scala 来 实现 自 定义 Writable 类 。Spark 的 Python API 只 能 将 Hadoop 中 存在 的 基本 
Writable 类 型 转 为 Python 类 型 ， 并 尽量 基于 可 用 的 getter 方法 处 理 别 的 类 型 。 




















1. 读 取 SequenceFile 

Spark 有 专门 用 来 读 取 SequenceFile 的 接口 。 在 SparkContext 中 ， 可 以 调用 sequenceFiLe(path， 
keyClass，valueClass，minpPartitions)。 前 面 提 到 过 ，SequenceFile 使 用 Writable 类 ， 医 
此 keyClass 和 valueClass 参数 都 必须 使 用 正确 的 Writable 类 。 举 个 例子 ,假设 要 从 一 个 
SequenceFile 中 读 取 人 员 以 及 他 们 所 见 过 的 熊猫 数目 。 在 这 个 例子 中 ，keyClass 是 Text， 
而 valueClass 则 是 Intwritable 或 VIntwritable。 为 了 方便 演示 ， 在 例 5-20 至 例 5-22 中 
使 用 Intwritable。 




















例 5-20: 在 Python 读 取 SequenceFile 


val data = sc.sequenceFile(inrFile, 
"org.apache.hadoop.io.Text", "org.apache.hadoop.io.IntWritable") 





例 5-21: 在 Scala 中 读 取 SequenceFile 


val data = sc.sequenceFile(inFile, classOf[Text], classOof[Intwritable]). 
map{case (x, y) => (x.toString, y.get())} 





例 5-22: 在 Java 中 读 取 SequenceFile 


public static class ConvertToNativeTypes implements 
PairFunction<Tuple2<Text, IntWritable>, String, Integer> { 
public Tuple2<String, Integer> call(Tuple2<Text, IntWritable> record) { 
return new Tuple2(record._1.toString(), record. 2.get()); 
} 
} 





JavaPairRDD<Text, IntWritable> input = sc.sequenceFile(fileName, Text.class, 
Intwritable.class); 

JavaPairRDD<String, Integer> result = input.mapToPair( 
new ConvertToNativeTypes()); 


在 Scala 中 有 一 个 很 方便 的 函数 可 以 自动 将 Writable 对 象 转 为 相应 的 Scala 类 
型 。 可 以 调用 sequenceFile[Key，Value](path，minpPartitions) 返回 Scala 
原生 数据 类 型 的 RDD， 而 无 需 指 定 keyCLass 和 vaLueCLass 。 











2. 保存 SequenceFile 

在 Scala 中 将 数据 写 出 到 SequenceFile 的 做 法 也 很 类 似 。 首 先 ， 因 为 SequenceFile 存储 的 
是 键 值 对 ， 所 以 需要 创建 一 个 由 可 以 写 出 到 SequenceFile 的 类 型 构成 的 PatrRDD。 我 们 
已 经 进行 了 将 许多 Scala 的 原生 类 型 转 为 Hadoop Writable 的 隐 式 转换 ， 所 以 如 果 你 要 和 写 
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出 的 是 Scala 的 原生 类 型 ， 可 以 直接 调用 savesequenceFite(path) 保存 你 的 PatrRDD， 它 
会 帮 你 写 出 数据 。 如 果 键 和 值 不 能 自动 转 为 Writable 类 型 ， 或 者 想 使 用 变 长 类 型 〈 比 如 
VIntWritable)， 就 可 以 对 数据 进行 映射 操作 ， 在 保存 之 前 进行 类 型 转换 。 让 我 们 改写 之 前 
的 那个 例子 (人员 以 及 他 们 所 见 过 的 熊猫 数目 )， 如 例 5-23 所 示 。 





例 5-23: 在 Scala 中 保存 SequenceFile 


val data = sc.parallelize(List(("Panda", 3), ("Kay", 6), ("Snail", 2))) 
data.saveAsSequenceFile(outputrFile) 














在 Java 中 保存 SequenceFile 要 稍微 复杂 一 些 ， 因 为 JavaPairRDD 上 没有 saveAsSequenceFile() 
方法 。 我 们 要 使 用 Spark 保存 自 定义 Hadoop 格式 的 功能 来 实现 。5.2.6 节 会 展示 如 何 使 用 
Java 以 SequenceFile 保存 数据 。 


5.2.5 “对 象 文件 
对 象 文件 看 起 来 就 像 是 对 SequenceFile 的 简单 封装 ， 它 允许 存储 只 包含 值 的 RDD。 和 
SequenceFile 不 一 样 的 是 ， 对 象 文件 是 使 用 Java 序列 化 写 出 的 。 




















如 果 你 修改 了 你 的 类 一 一 比如 增 减 了 几 个 字段 一 一 已 经 生成 的 对 象 文件 就 不 
再 可 读 了 。 对 象 文件 使 用 Java 序列 化 ， 它 对 兼容 同一 个 类 的 不 同 版 本 有 一 定 
程度 的 支持 ， 但 是 需要 程序 员 去 实现 。 


Ti 











对 对 象 文件 使 用 Java 序列 化 有 几 个 要 注意 的 地 方 。 首 先 ， 和 普通 的 SequenceFile 不 同 ， 对 
于 同样 的 对 象 ， 对 象 文 件 的 输出 和 Hadoop 的 输出 不 一 样 。 其 次 ， 与 其 他 文件 格式 不 同 的 
是 ， 对 象 文件 通常 用 于 Spark 作业 间 的 通信 。 最 后 ，Java 序列 化 有 可 能 相当 慢 。 




















要 保存 对 象 文 件 ， 只 需 在 RDD 上 调用 saveAs0bjectFile 就 行 了 。 读 回 对 象 文 件 也 相当 简 
单 : 用 SparkContext 中 的 objectFile() 国 数 接收 一 个 路 径 ， 返 回 对 应 的 RDD。 








了 解 了 关于 使 用 对 象 文件 的 这 些 注意 事项 ， 你 可 能 想 知 道 为 什么 会 有 人 要 用 它 。 使 用 对 象 
文件 的 主要 原因 是 它们 可 以 用 来 保存 几乎 任意 对 象 而 不 需要 额外 的 工作 。 





对 象 文件 在 Python 中 无 法 使 用 ， 不 过 Python 中 的 RDD 和 SparkContext 支持 saveAsPickleFile() 
和 picktleFile() 方法 作为 替代 。 这 使 用 了 Python 的 pickle 序列 化 库 。 不 过 ， 对 象 文 件 的 
注意 事项 同样 适用 于 pickle 文件 : pickle 库 可 能 很 慢 ， 并 且 在 修改 类 定义 后 ， 已 经 生产 的 
数据 文件 可 能 无 法 再 读 出 来 。 


5.2.6 ”Hadoop 输 入 输出 格式 


除了 Spark 封装 的 格式 之 外 ， 也 可 以 与 任何 Hadoop 支持 的 格式 交互 。Spark 支持 新 旧 两 套 
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Hadoop 文件 API， 提 供 了 很 大 的 灵活 性 。 


1. 读 取 其 他 Hadoop 输 入 格式 

要 使 用 新 版 的 Hadoop API 读 入 一 个 文件 ， 需 要 告诉 Spark 一 些 东 西 。newAPIHadoopFile 
接收 一 个 路 径 以 及 三 个 类 。 第 一 个 类 是 “格式 ”类 ， 代 表 输 入 格式 。 相 似 的 函数 
hadoopFile() 则 用 于 使 用 旧 的 API 实现 的 Hadoop 输入 格式 。 第 二 个 类 是 键 的 类 ， 最 后 一 
个 类 是 值 的 类 。 如 果 需 要 设 定额 外 的 Hadoop 配置 属性 ， 也 可 以 传人 一 个 conf 对 象 。 





KeyValueTextInputFormat 是 最 简单 的 Hadoop 输入 格式 之 一 ， 可 以 用 于 从 文本 文件 中 读 取 
键 值 对 数据 (如 例 5-24 所 示 )。 每 一 行 都 会 被 独立 处 理 ， 键 和 值 之 间 用 制 表 符 隔 开 。 这 个 
格式 存在 于 Hadoop 中 ， 所 以 无 需 向 工程 中 添加 额外 的 依赖 就 能 使 用 它 。 























例 5-24: 在 Scala 中 使 用 老式 API 读 取 KeyValueTextInputFormat() 


val input = sc.hadoopFile[Text, Text, KeyValueTextInputFormat](inputFile).map{ 
case (x, y) => (x.toString, y.toString) 


} 





我 们 学 习 了 通过 读 取 文 本 文件 并 加 以 解析 以 读 取 JSON 数据 的 方法 。 事实 上 ， 我 们 也 可 以 
使 用 自 定义 Hadoop 输入 格式 来 读 取 JSON 数据 。 该 示例 需要 设置 一 些 额 外 的 压缩 选项 ， 
我 们 暂且 跳 过 关于 设置 压缩 选项 的 细节 。Twitter 的 Elephant Bird 包 (https://github.com/ 
twitter/elephant-bird) 支持 很 多 种 数据 格式 ， 包 括 JSON、Lucene、Protocol Buffer 相关 的 
格式 等 。 这 个 包 也 适用 于 新 旧 两 种 Hadoop 文件 API。 为 了 展示 如 何在 Spark 中 使 用 新 式 
Hadoop API， 我 们 来 看 一 个 使 用 Lzo JsonInputFormat 读 取 LZO 算法 压缩 的 JSON 数据 的 
例子 。 








例 5-25: 在 Scala 中 使 用 Elephant Bird 读 取 LZO 算法 压缩 的 JSON 文件 
val ;input = sc.newAPIHadoopFile(inputFile, classOf[LzoJsonInputFormat], 
classof[LongWritable], classof[MapWritable], conf) 
// "输入 "中 的 每 个 MapNritabLe 代 表 一 个 JSON 对 象 








LZO 的 支持 要 求 你 先 安装 hadoop-1zo 包 ， 并 放 到 Spark 的 本 地 库 中 。 如 果 你 
使 用 Debian 包 安 装 ， 在 调用 spark-submit 时 加 上 --driver-library-path / 
usr/Lib/hadoop/Liby/native/ --driver-class-path /usr/Lib/hadoop/Liby/ 就 
可 以 了 。 











使 用 旧 的 Hadoop API 读 取 文件 在 用 法 上 几乎 一 样 ， 除 了 需要 提供 旧式 InputFormat 类 。 
Spark 许多 自 带 的 封装 好 的 函数 (比如 sequenceFile()) 都 是 使 用 旧式 Hadoop API 实现 的 。 


2. 保存 Hadoop 输 出 格式 
我 们 对 SequenceFile 已 经 有 了 一 定 的 了 解 ， 但 是 在 Java API 中 没有 易 用 的 保存 pair RDD 的 




















注 4: Hadoop 在 演进 过 程 中 增加 了 一 套 新 的 MapReduce API， 不 过 有 些 库 仍 然 使 用 旧 的 那 套 。 
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函数 。 我 们 就 把 这 种 情况 作为 展示 如 何 使 用 旧式 Hadoop 格式 的 API 的 例子 ( 见 例 5-26) ， 
新 接口 (saveAsNewAPIHadoopFile) 的 调用 方法 也 是 类 似 的 。 





例 5-26: 在 Java 保 存 SequenceFile 


public static class ConvertToWritableTypes implements 
PairFunction<Tuple2<String, Integer>, Text, IntWritable> { 
public Tuple2<Text, IntWritable> call(Tuple2<String, Integer> record) { 
return new Tuple2(new Text(record._1), new IntWritable(record. 2)); 
上 
} 


JavaPairRDD<String, Integer> rdd = sc.parallelizepairs(input); 

JavaPairRDD<Text, IntWritable> result = rdd.mapToPair(new ConvertToWritableTypes()); 

result.saveAsHadoopFile(fileName, Text.class, IntWritable.class, 
SequenceFileOutputFormat.class); 


3. 非 文 件 系 统 数据 源 

除了 hadoopFile() 和 saveAsHadoopFile() 这 一 大 类 函数 ， 还 可 以 使 用 hadoopDataset/ 
saveAsHadoopDataSet 和 newAPIHadoopDataset/saveAsNewAPIHadoopDataset 来 访问 Hadoop 所 
支持 的 非 文件 系统 的 存储 格式 。 例 如 ， 许 多 像 HBase 和 MongoDB 这 样 的 键 值 对 存储 都 提 
供 了 用 来 直接 读 取 Hadoop 输入 格式 的 接口 。 我 们 可 以 在 Spark 中 很 方便 地 使 用 这 些 格式 。 








hadoopDataset() 这 一 组 函数 只 接收 一 个 Configuration 对 象 ， 这 个 对 象 用 来 设置 访问 数据 
源 所 必需 的 Hadoop 属性 。 你 要 使 用 与 配置 Hadoop MapReduce 作业 相同 的 方式 来 配置 这 个 
对 象 。 所 以 你 应 当 按照 在 MapReduce 中 访问 这 些 数据 源 的 使 用 说 明 来 配置 ， 并 把 配置 对 象 
传 给 Spark。 比 如 ，5.5.3 节 展 示 了 如 何 使 用 newAPIHadoopDataset 来 从 HBase 中 读 取 数据 。 


4. 示例 : protocol buffer 

Protocol buffer (简称 PB，https://github.com/google/protobuf)“ 最早 由 Google 开发 ， 用 于 内 
部 的 远程 过 程 调 用 (RPC)， 已 经 开源 。PB 是 结构 化 数据 ， 它 要 求 字段 和 类 型 都 要 明确 定 
义 。 它 们 是 经 过 优化 的 ， 编 解码 速度 快 ， 而 且 占 用 空间 也 很 小 。 比 起 XML，PB 能 在 同样 
的 空间 内 存储 大 约 3 到 10 倍 的 数据 ， 同 时 编 解 码 速度 大 约 为 XML 的 20 至 100 倍 。PB 采 
用 一 致 化 编码 ， 因 此 有 很 多 种 创建 一 个 包含 多 个 PB 消息 的 文件 的 方式 。 




















PB 使 用 领域 专用 语言 来 定义 ，PB 编译 器 可 以 生成 各 种 语言 的 访问 函数 (包括 Spark 支持 
的 那些 语言 )。 由 于 PB 需要 占用 尽量 少 的 空间 ， 所 以 它 不 是 “ 自 描述 ”的 ， 因 为 对 数据 描 
述 的 编码 需要 占用 额外 的 空间 。 这 表示 当 我 们 需要 解析 PB 格式 的 数据 时 ， 需 要 获取 并 理 
解 PB 的 定义 。 

PB 由 可 选 字段 、 必 和 需 字 段 、 重 复 字 段 三 种 字段 组 成 。 在 解析 时 ， 可 选 字段 的 缺失 不 会 导 
致 解析 失败 ， 而 必需 字段 的 缺失 则 会 导致 数据 解析 失败 。 因 此 ， 在 往 PB 定义 中 添加 新 字 
段 时 ， 最 好 将 新 字段 设 为 可 选 字段 ， 毕 竞 不 是 所 有 人 都 会 同时 更 新 到 新 版 本 〈 即 使 他 们 会 

















注 5: 有 时 称 为 pb 或 protobuf。 
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这 样 做 ， 你 还 是 有 可 能 需要 读 取 以 前 的 旧 数据 )。 


PB 字段 支持 许多 预定 义 类 型 ， 或 者 另 一 个 PB 消息 。 这 些 类 型 包括 string、int32、enunm 
等 。 这 里 将 不 提供 PB 的 完整 介绍 ， 如 果 你 感 兴趣 的 话 ， 可 以 访问 Protocol Buffer 的 网 站 
(https://developers.google.com/protocol-buffers) 了 解 更 多 细节 。 


例 5-27 研究 的 是 如 何 从 一 个 简单 的 PB 格式 中 读 取 许多 VenueResponse 对 象 。VenueResponse 
是 只 包含 一 个 重复 字段 的 简单 格式 ， 这 个 字段 包含 一 条 带 有 必需 字段 、 可 选 字段 以 及 枚 举 
类 型 字段 的 PB 消息 。 


例 5-27: PB 定义 示例 
message Venue { 
required int32 id = 1; 
required string name = 2; 
required VenueType type = 3; 
optional string address = 4; 














enum VenueType { 
COFFEESHOP = 0; 
WORKPLACE = 1; 
CLUB = 2; 
OMNOMNOM = 3; 
OTHER = 4; 

} 

} 


message VenueResponse { 
repeated Venue results = 1; 


} 











前 一 节 中 使 用 过 Twitter 的 Elephant Bird 库 来 读 取 JSON 数据 ， 它 也 支持 从 PB 中 读 取 和 保 
存 数 据 。 下 面 来 看 一 个 写 出 venues 的 示例 ， 如 例 5-28 所 示 。 


例 5-28: 在 Scala 中 使 用 Elephant Bird 写 出 protocol buffer 


val job = new Job() 

val conf = job.getConfiguration 

LzoProtobufBlockOutputFormat.setClassConf(classOf[Places.Venue], conf); 

val dnaLounge = Places.Venue.newBuilder() 

dnaLounge. setId(1); 

dnaLounge.setName("DNA Lounge") 

dnaLounge.setType(PLaces.Venue.VenueType.CLUB) 

val data = sc.parallelize(List(dnaLounge.build())) 

val outputData = data.map{ pb => 
val protoWritable = ProtobufWritable.newInstance(classOf[Places.Venuel]); 
protowWritable.set(pb) 
(null, protowritable) 

} 

outputData.saveAsNewAPIHadoopFile(outputFile, classOf[Text], 
classOof[ProtobufWritable[Places.Venue]], 
classOof[LzoProtobufBlockOutputFormat[ProtobufWritable[Places.Venue]]], conf) 




















这 个 示例 的 完整 版 本 可 以 在 本 书 的 源 代码 中 找到 。 


构建 工程 时 ， 请 确保 使 用 的 PB 库 的 版 本 与 Spark 相同 。 在 写作 本 书 之 际 ， 
Spark 使 用 的 版 本 是 2.5。 





5.2.7 文件 压缩 


在 大 数据 工作 中 ， 我 们 经 常 需要 对 数据 进行 压缩 以 节省 存储 空间 和 网 络 传输 开销 。 对 于 大 
多 数 Hadoop 输出 格式 来 说 ， 我 们 可 以 指定 一 种 压缩 编 解码 器 来 压缩 数据 。 我 们 已 经 提 过 ， 
Spark 原生 的 输入 方式 (textFile 和 sequenceFile) 可 以 自动 处 理 一 些 类 型 的 压缩 。 在 读 
取 压 缩 后 的 数据 时 ， 一 些 压缩 编 解 码 器 可 以 推测 压缩 类 型 。 

这 些 压 缩 选 项 只 适用 于 支持 压缩 的 Hadoop 格式 ， 也 就 是 那些 写 出 到 文件 系统 的 格式 。 写 
入 数据 库 的 Hadoop 格式 一 般 没 有 实现 压缩 支持 。 如 果 数 据 库 中 有 压缩 过 的 记录 ， 那 应 该 
是 数据 库 自己 配置 的 。 


























选择 一 个 输出 压缩 编 解 码 器 可 能 会 对 这 些 数据 以 后 的 用 户 产生 巨大 影响 。 对 于 像 Spark 这 
样 的 分 布 式 系统 ， 我 们 通常 会 尝试 从 多 个 不 同 机 器 上 一 起 读 入 数据 。 要 实现 这 种 情况 ， 每 
个 工作 市 点 都 必须 能 够 找到 一 条 新 记录 的 开端 。 有 些 压缩 格式 会 使 这 变 得 不 可 能 ， 而 必须 
要 单个 节点 来 读 入 所 有 数据 ， 这 就 很 容易 产生 性 能 瓶颈 。 可 以 很 容易 地 从 多 个 节点 上 并 行 
读 取 的 格式 被 称 为 “可 分 割 ” 的 格式 。 表 5-3 列 出 了 可 用 的 压缩 选项 。 
表 5-3: 压缩 选项 

平均 压 ” 文 本 文件 


























格式 。 可 分 割 缩 速 度 ”压缩 效率 Hadoop 压 缩编 解码 器 纯 Java 实 现 原生 备注 
gzip 否 快 高 org.apache.hadoop.io. 是 是 
compress.GzipCodec 
lzo 是 5 非常 快 ”中 等 com.hadoop. 是 是 需要 在 每 个 市 点 
compression. 上 安装 LZO 
lzo.LzoCodec 
bzip2 ”是 慢 非常 高 org.apache.hadoop.io. 是 是 为 可 分 割 版 本 使 
compress.Bzip2Codec 用 纯 Java 
zlib 否 慢 中 等 org.apache.hadoop. 是 是 Hadoop 的 默认 压 
io.compress.DefaultCodec 缩编 解码 器 
Snappy 否 韭 常 快 ” 低 org.apache.hadoop.io. 否 是 Snappy 有 纯 Java 
compress.SnappyCodec 的 移植 版 ， 但 是 
在 Spark/Hadoop 
中 不 能 用 











注 6: 取决 于 所 使 用 的 库 。 
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尽管 Spark 的 textFite() 方法 可 以 处 理 压 缩 过 的 输入 ， 但 即使 输入 数据 
被 以 可 分 割 读 取 的 方式 压缩 ，Spark 也 不 会 打开 splittable。 因 此 ， 如 果 
你 要 读 取 单个 压缩 过 的 输入 ， 最 好 不 要 考虑 使 用 Spark 的 封装 ， 而 是 使 用 
newAPIHadoopFile 或 者 hadoopFile， 并 指定 正确 的 压 纠 编 解码 器 。 











有 些 输 入 格式 (例如 SequenceFile) 允许 我 们 只 压缩 键 值 对 数据 中 的 值 ， 这 在 查询 时 很 有 
用 。 其 他 一 些 输入 格式 也 有 自己 的 压缩 控制 : 比如 ，Twitter 的 Elephant Bird 包 中 的 许多 格 
式 都 可 以 使 用 LZO 算法 压缩 的 数据 。 


5.3 文件 系统 


Spark 支持 读 写 很 多 种 文件 系统 ， 可 以 使 用 任何 我 们 想 要 的 文件 格式 。 


5.3.1 本 地 /“ 常 规 ” 文 件 系统 
Spark 支持 从 本 地 文件 系统 中 读 取 文件 ， 不 过 它 要 求 文件 在 集群 中 所 有 节点 的 相同 路 径 下 
都 可 以 找到 。 





一 些 像 NFES、AFS 以 及 MapR 的 NFS layer 这 样 的 网 络 文件 系统 会 把 文件 以 常规 文件 系统 
的 形式 暴露 给 用 户 。 如 果 你 的 数据 已 经 在 这 些 系统 中 ， 那 么 你 只 需要 指定 输入 为 一 个 file:// 
路 径 ， 只 要 这 个 文件 系统 挂 载 在 每 个 节点 的 同一 个 路 径 下 ，Spark 就 会 自动 处 理 (如 例 
5-29 所 示 )。 


例 5-29: 在 Scala 中 从 本 地 文件 系统 读 取 一 个 压缩 的 文本 文件 


val rdd = sc.textFile("file:///home/holden/happypandas.gz") 























如 果 文 件 还 没有 放 在 集群 中 的 所 有 市 点 上 ， 你 可 以 在 驱动 器 程序 中 从 本 地 读 取 该 文件 而 无 
需 使 用 整个 集群 ， 然 后 再 调用 paratlelize 将 内 容 分 发 给 工作 市 点 。 不 过 这 种 方式 可 能 会 
比较 慢 ， 所 以 推荐 的 方法 是 将 文件 先 放 到 像 HDFS、NFS、S3 等 共享 文件 系统 上 。 








5.3.2 Amazon S3 


用 Amazon S3 来 存储 大 量 数据 正 日 益 流 行 。 当 计算 节点 部 署 在 Amazon EC2 上 的 时 候 ， 使 
用 S3 作为 存储 尤其 快 ， 但 是 在 需要 通过 公 网 访问 数据 时 性 能 会 差 很 多 。 








要 在 Spark 中 访问 S3 数据 ， 你 应 该 首先 把 你 的 S3 访问 凭据 设置 为 AWS_ACCESS_KEY_ID 和 
AWS_SECRET_ACCESS_KEY 环境 变量 。 你 可 以 从 Amazon Web Service 控制 台 创建 这 些 凭据 。 
接 下 来 ， 将 一 个 以 s3n:// 开头 的 路 径 以 s3n://bucket/path-within-bucket 的 形式 传 给 
Spark 的 输入 方法 。 和 其 他 所 有 文件 系统 一 样 ，Spark 也 能 在 S3 路 径 中 支持 通 配 字 符 ， 例 
如 s3n://bucket/my-Files/*.txt, 
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如 果 你 从 Amazon 那里 得 到 S3 访问 权限 错误 ， 请 确保 你 指定 了 访问 密 钥 的 账号 对 数据 桶 
有 “read”( 读 ) 和 “list”( 列 表 ) 的 权限 。Spark 需要 列 出 桶 内 的 内 容 ， 来 找到 想 要 读 取 
的 数据 。 


5.3.3 HDFS 


Hadoop 分 布 式 文件 系统 (HDFS) 是 一 种 广泛 使 用 的 文件 系统 ，Spark 能 够 很 好 地 使 用 它 。 
HDFS 被 设计 为 可 以 在 廉价 的 硬件 上 工作 ， 有 弹性 地 应 对 节点 失败 ， 同 时 提供 高 吞吐 量 。 
Spark 和 HDFS 可 以 部 署 在 同一 批 机 器 上 ， 这 样 Spark 可 以 利用 数据 分 布 来 尽量 避免 一 些 
网 络 开 销 。 








在 Spark 中 使 用 HDFS 只 需要 将 输入 输出 路 径 指定 为 hdfs://master:port/path 就 够 了 。 











HDFS 协议 随 Hadoop 版 本 改变 而 变化 ， 因 此 如 果 你 使 用 的 Spark 是 依赖 于 
另 一 个 版 本 的 Hadoop 编译 的 ， 那 么 读 取 会 失败 。 默 认 情 况 下 ，Spark 基于 
Hadoop 1.0.4 编译 "。 如 果 从 源 代码 编译 ， 你 可 以 在 环境 变量 中 指定 SPARK_ 
HADOOP_VERSION= 来 基于 另 一 个 版 本 的 Hadoop 进行 编译 ， 也 可 以 直接 下 载 预 
编译 好 的 Spark 版 本 。 你 可 以 根据 运行 hadoop version 的 结果 来 获得 环境 变 
量 要 设置 的 值 。 





























5.4 _ Spark SQL 中 的 结构 化 数据 


Spark SQL 是 在 Spark 1.0 中 新 加 入 Spark 的 组 件 ， 并 快速 成 为 了 Spark 中 较 受 欢迎 的 操作 
结构 化 和 半 结 构 化 数据 的 方式 。 结 构 化 数据 指 的 是 有 结构 信息 的 数据 一 一 也 就 是 所 有 的 数 
据 记 录 都 具有 一 致 字段 结构 的 集合 。Spark SQL 支持 多 种 结构 化 数据 源 作为 输入 ,而且 由 
于 Spark SQL 知道 数据 的 结构 信息 ， 它 还 可 以 从 这 些 数 据 源 中 只 读 出 所 需 字段 。 第 9 章 将 
更 详细 地 讲解 Spark SQL， 现 在 我 们 只 展示 如 何 使 用 它 从 一 些 常 见 数据 源 中 读 取 数据 。 


在 各 种 情况 下 ， 我 们 把 一 条 SQL 查询 给 Spark SQL， 让 它 对 一 个 数据 源 执行 查询 ( 选 出 
一 些 字段 或 者 对 字段 使 用 一 些 函 数 )， 然 后 得 到 由 Row 对 象 组 成 的 RDD， 每 个 Row 对 象 
表示 一 条 记录 。 在 Java 和 Scala 中 ，Row 对 象 的 访问 是 基于 下 标的 。 每 个 Row 都 有 一 个 
get() 方法 ， 会 返回 一 个 一 般 类 型 让 我 们 可 以 进行 类 型 转换 。 另 外 还 有 针对 篆 见 基本 类 型 
的 专用 get() 方法 (例如 getFLoat()、getInt()、getLong()、getString()、getShort()、 
getBoolean() 等 )。 在 Python 中 ， 可 以 使 用 row[coLumn_number] 以 及 row.coLumn_name 来 访 
问 元 素 。 




















注 7: 自 Spark 1.4.0 起 ，Spark 默认 的 Hadoop 版 本 已 升级 至 2.2.0。 一 一 译 者 注 
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5.4.1 _ Apache Hive 

Apache Hive 是 Hadoop 上 的 一 种 常见 的 结构 化 数据 源 。Hive 可 以 在 HDFS 内 或 者 在 其 他 
存储 系统 上 存储 多 种 格式 的 表 。 这 些 格 式 从 普通 文本 到 列 式 存储 格式 ， 应 有 尽 有 。Spark 
SQL 可 以 读 取 Hive 支持 的 任何 表 。 























要 把 Spark SQL 连接 到 已 有 的 Hive 上 ， 你 需要 提供 Hive 的 配置 文件 。 你 需要 将 hive-site. 
xml 文件 复制 到 Spark 的 ./conf/ 目录 下 。 这 样 做 好 之 后 ， 再 创建 出 HiveContext 对 象 ， 也 
就 是 Spark SQL 的 入 口 ， 然 后 你 就 可 以 使 用 Hive 查询 语言 (HQL) 来 对 你 的 表 进 行 查 询 ， 
并 以 由 行 组 成 的 RDD 的 形式 拿 到 返回 数据 ， 如 例 5-30 至 例 5-32 所 示 。 








例 5-30: 用 Python 创建 HiveContext 并 查询 数据 
from pyspark.sql import HiveContext 
hiveCtx = HiveContext(sc) 
rows = hiveCtx.sql("SELECT name，age FROM users") 


firstRow = rows.first() 
print firstRow.name 


例 5-31: 用 Scala 创建 HiveContext 并 查询 数据 


import org.apache.spark.sql.hive.HiveContext 





val hiveCtx = new org.apache.spark.sql.hive.HiveContext(sc) 
val rows = hiveCtx.sql("SELECT name, age FROM users") 

val firstRow = rows.first() 

println(firstRow.getString(0)) // 字段 6 是 name 字 段 


例 5-32: 用 Java 创建 HiveContext 并 查询 数据 


import org.apache.spark.sql.hive.HiveContext; 
import org.apache.spark.sqL.Row; 
import org.apache.spark.sql.SchemaRDD; 


HiveContext hiveCtx = new HiveContext(sc); 

SchemaRDD rows = hiveCtx.sql("SELECT name, age FROM users"); 
Row firstRow = rows.first(); 
System.out.println(firstRow.getString(0)); // 字段 0 是 name 字 段 


我 们 会 在 9.3.1 市 更 详细 地 介绍 如 何 从 Hive 中 读 取 数 据 。 


5.4.2 JSON 

如 果 你 有 记录 间 结 构 一 致 的 JSON 数据 ，Spark SQL 也 可 以 自动 推断 出 它们 的 结构 信息 ， 
并 将 这 些 数据 读 取 为 记录 ， 这 样 就 可 以 使 得 提取 字段 的 操作 变 得 很 简单 。 要 读 取 JSON 数 
据 ， 首 先 需要 和 使 用 Hive 一 样 创建 一 个 HiveContext。( 不 过 在 这 种 情况 下 我 们 不 需要 安装 
好 Hive， 也 就 是 说 你 也 不 需要 hive-site.xml 文件 。) 然后 使 用 HiveContext.jsonFile 方法 
来 从 整个 文件 中 获取 由 Row 对 象 组 成 的 RDD。 除 了 使 用 整个 Row 对 象 ， 你 也 可 以 将 RDD 
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注册 为 一 张 表 ， 然 后 从 中 选 出 特定 的 字段 。 例 如 ， 假设 有 一 个 包含 推 文 的 JSON 文件 ， 格 
式 如 例 5-33 所 示 ， 每 行 一 条 记录 。 








例 5-33: JSON 中 的 示例 推 文 
"user": {"name": "Holden", "location": "San Francisco"}, "text": "Nice day out today"} 
"user": {"name": "Matei", "location": "Berkeley"}, "text": "Even nicer here :)"} 


我 们 可 以 读 取 这 些 数据 ， 只 从 中 选取 username (用 户 名 ) 和 text (文本 ) 字段 ， 如 例 5-34 
至 例 5-36 所 示 。 


例 5-34: 在 Python 中 使 用 Spark SQL 读 取 JSON 数据 


tweets = hiveCtx.jsonFile("tweets.json") 
tweets.registerTempTable("tweets") 
results = hiveCtx.sql("SELECT user.name, text FROM tweets") 


例 5-35: 在 Scala 中 使 用 Spark SQL 读 取 JSON 数据 


val tweets = hiveCtx.jsonFile("tweets.json") 
tweets.registerTempTable("tweets") 
val results = hiveCtx.sql("SELECT User.name, text FROM tweets") 


例 5-36: 在 Java 中 使 用 Spark SQL 读 取 JSON 数据 


SchemaRDD tweets = hiveCtx.jsonFile(jsonFile); 
tweets.registerTempTable("tweets"); 
SchemaRDD results = hiveCtx.sql("SELECT user.name, text FROM tweets"); 


我 们 会 在 9.3.3 节 对 如 何 使 用 Spark SQL 读 取 JSON 数据 并 访问 其 结构 信息 进行 深入 探讨 。 
此 外 ，Spark SQL 的 支持 远 不 限于 读 取 数据 ， 还 包括 查询 数据 、 以 比 RDD 所 支持 的 方式 更 
复杂 的 方式 组 合 数 据 、 对 数据 运行 自 定 义 函数 ， 这 些 都 将 在 第 9 章 中 讲 到 。 


5.5 ”数据库 
通过 数据 库 提 供 的 Hadoop 连接 器 或 者 自 定义 的 Spark 连接 器 ，Spark 可 以 访问 一 些 常 用 的 
数据 库 系统 。 本 节 来 展示 四 种 常见 的 连接 器 。 


5.5.1 _ Java 数据 库 连 接 

Spark 可 以 从 任何 支持 Java 数据库 连接 (JDBC) 的 关系 型 数据 库 中 读 取 数据 ， 包 
括 MySQL、Postgre 等 系统 。 要 访问 这 些 数 据 ， 需 要 构建 一 个 org.apache.spark.rdd. 
JdbcRDD， 将 SparkContext 和 其 他 参数 一 起 传 给 它 。 例 5-37 就 演示 了 如 何 使 用 JdbcRDD 连 
接 MySQL 数据 库 。 


例 5-37: Scala 中 的 JdbcRDD 


def createConnection() = { 
Class.forName("com.mysql.jdbc.Driver").newInstance(); 
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DriverManager .getConnection("jdbc:mysqL://LocaLhost/test?user=hoLden'" ) ; 


} 


def extractValues(r: ResultSet) = { 
(r.getInt(1), r.getString(2)) 


val data = new JdbcRDD(sc, 
createConnection, "SELECT * FROM panda WHERE ? <= id AND id <= ?"， 
LowerBound = 1, upperBound = 3, numpartitions = 2, mapRow = extractValues) 
printLn(data.coLLect() .toList) 


JdbcRDD 接收 这 样 几 个 参数 。 


。 首先 ， 要 提供 一 个 用 于 对 数据 库 创建 连接 的 函数 。 这 个 函数 让 每 个 布点 在 连接 必要 的 配 
置 后 创建 自己 读 取 数 据 的 连接 。 

。 接 下 来 ， 要 提供 一 个 可 以 读 取 一 定 范围 内 数据 的 查询 ， 以 及 查询 参数 中 LowerBound 和 
upperBound 的 值 。 这 些 参数 可 以 让 Spark 在 不 同 机 器 上 查询 不 同 范围 的 数据 ， 这 样 就 不 
会 因 堂 试 在 一 个 节点 上 读 取 所 有 数据 而 遭遇 性 能 瓶颈 。 

。 这 个 函数 的 最 后 一 个 参数 是 一 个 可 以 将 输出 结果 从 java.sql.ResultSet (http://docs. 
oracle.com/javase/7/docs/api/java/sql/ResultSet.html) 转 为 对 操作 数据 有 用 的 格式 的 函数 。 

在 例 5-37 中 ， 我 们 会 得 到 (Int，String) 对 。 如 果 这 个 参数 空缺 ，Spark 会 自动 将 每 行 

结果 转 为 一 个 对 象 数组 。 


和 其 他 的 数据 源 一 样 ， 在 使 用 JdbcRDD 时 ， 需 要 确保 你 的 数据 库 可 以 应 付 Spark 并 行 读 取 
的 负载 。 如 果 你 想 要 离线 查询 数据 而 不 使 用 在 线 数据 库 ， 可 以 使 用 数据 库 的 导出 功能 ， 将 
数据 导出 为 文本 文件 。 
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5.5.2 Cassandra 

随 着 DataStax 开源 其 用 于 Spark 的 Cassandra 连接 器 (https://github.com/datastax/spark-cassandra- 
connector) ，Spark 对 Cassandra 的 支持 大 大 提升 。 这 个 连接 器 目前 还 不 是 Spark 的 一 部 分 ， 
因此 你 需要 添加 一 些 额外 的 依赖 到 你 的 构建 文件 中 才能 使 用 它 。Cassandra 还 没有 使 用 
Spark SQL， 不 过 它 会 返回 由 CassandraRow 对 象 组 成 的 RDD， 这 些 对 象 有 一 部 分 方法 与 
Spark SQL 的 Row 对 象 的 方法 相同 ， 如 例 5-38 和 例 5-39 所 示 。Spark 的 Cassandra 连接 器 
目前 只 能 在 Java 和 Scala 中 使 用 。 


例 5-38: Cassandra 连接 器 的 sbt 依赖 


"com.datastax.spark" %% "spark-cassandra-connector" % "1.0.0-rc5"， 
"com.datastax.spark" %% "spark-cassandra-connector-java" % "1.0.0-rc5" 




















注 8: 如 果 你 不 知道 到 底 有 多 少 条 记录 ， 可 以 先 手动 执行 一 条 计数 查询 ， 然 后 根据 结果 来 决定 upperBound 和 
LowerBound 的 值 。 
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例 5-39: Cassandra 连接 器 的 Maven 依赖 


<dependency> <!-- Cassandra --> 
<groupId>com.datastax.spark</groupId> 
<artifactId>spark-cassandra-connector</artifactId> 
<version>1.0.0-rc5</version> 

</dependency> 

<dependency> <!-- Cassandra --> 
<groupId>com.datastax.spark</groupId> 
<artifactId>spark-cassandra-connector-java</artifactId> 
<version>1.0.0-rc5</version> 

</dependency> 


跟 Elasticsearch 很 像 ，Cassandra 连接 器 要 读 取 一 个 作业 属性 来 决定 连接 到 哪个 集群 。 我 们 
把 spark.cassandra.connection.host 设置 为 指向 Cassandra 和 集群。 如 果 有 用 户 名 和 密码 的 
话 ， 则 需要 分 别 设置 spark.cassandra.auth.username 和 spark.cassandra.auth.password。 
假定 你 只 有 一 个 Cassandra 集群 要 连接 ， 可 以 在 创建 SparkContext 时 就 把 这 些 都 设 好 ， 如 
例 5-40 和 例 5-41 所 示 。 























例 5-40: 在 Scala 中 配置 Cassandra 属性 


val conf = new SparkConf(true) 
.Set("spark.cassandra.connection.host", "hostname") 


val sc = new SparkContext(conf) 


例 5-41: 在 Java 中 配置 Cassandra 属性 


SparkConf conf = new SparkConf(true) 
.set("spark.cassandra.connection.host", cassandraHost); 
JavaSparkContext sc = new JavaSparkContext( 
sparkMaster, "basicquerycassandra", conf); 


Datastax 的 Cassandra 连接 器 使 用 Scala 中 的 隐 式 转换 来 为 SparkContext 和 RDD 提供 一 些 
附加 函数 。 让 我 们 引入 这 些 隐 式 转换 ， 并 尝试 读 取 一 些 数据 (如 例 5-42 所 示 )。 


例 5-42: 在 Scala 中 将 整 张 键 值 对 表 读 取 为 RDD 
// 为 SparkContext 和 RDD 提 供 附 加 函数 的 隐 式 转换 


import com.datastax.spark.connector._ 

















// 将 整 张 表 读 为 一 个 RDD。 假 设 你 的 表 test 的 创建 语句 为 

// CREATE TABLE test.kv(key text PRIMARY KEY, value int); 
val data = sc.cassandraTable("test" , "kv") 

// 打印 出 vatLue 字 段 的 一 些 基 本 统计 。 


data.map(row => row.getInt("VvaLue" )) .stats() 














在 Java 中 ， 由 于 没有 隐 式 转换 ， 所 以 需要 显 式 地 转换 SparkContext 对 象 和 RDD 来 实现 这 
样 的 功能 (如 例 5-43 所 示 )。 


例 5-43: 在 Java 中 将 整 张 键 值 对 表 读 取 为 RDD 


import com.datastax.spark.connector.CassandraRow; 
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import static com.datastax.spark.connector.CassandraJavaUtil.javaFunctions; 





// 将 整 张 表 读 为 一 个 RDD。 假 设 你 的 表 test 的 创建 语句 为 
// CREATE TABLE test.kv(key text PRIMARY KEY, value int); 
JavaRDD<CassandraRow> data = javaFunctions(sc).cassandraTable("test" , "kv"); 


// 打印 一 些 基 本 统计 。 
System.out.printLn(data.mapToDoubLe(new DoubleFunction<CassandraRow>() { 
public double call(CassandraRow row) { return row.getIint("value"); } 


}).stats()); 


除了 读 取 整 张 表 ， 也 可 以 查询 数据 集 的 子 集 。 通 过 在 cassandraTable() 的 调用 中 加 上 where 
子 句 ， 可 以 限制 查询 的 数据 ， 例 如 ee ..).where("key=?", "panda"), 


Cassandra 连接 器 支持 把 多 种 类 型 的 RDD 保存 到 Cassandra 中 。 我 们 可 以 直接 保存 由 
CassandraRow 对 象 组 成 的 RDD， 这 对 于 在 表 之 间 复 制 数据 比较 有 用 。 通 过 指定 列 的 映射 关 
系 ， 我 们 也 可 以 存储 不 是 行 的 形式 而 是 元 组 和 列表 的 形式 的 RDD， 如 例 5-44 所 示 。 


例 5-44: 在 Scala 中 保存 数据 到 Cassandra 


val rdd = sc.parallelize(List(Seq("moremagic", 1))) 
rdd.saveToCassandra("test" , "kv", SomeColumns("key", "valuye")) 




















本 市 只 是 简短 地 介绍 了 Cassandra 连接 器 。 要 了 解 更 多 信息 ， 请 查阅 该 连接 器 的 GitHub 页 
面 (https://github.com/datastax/spark-cassandra-connector) 。 














5.5.3 HBase 


由 于 org.apache.hadoop.hbase. ae TableInputFormat 类 的 实现 ，Spark 可 以 通过 
Hadoop 输入 格式 访问 HBase。 这 个 输入 格式 会 返回 键 值 对 数据 ， 其 中 键 的 类 型 为 org. 
apache.hadoop.hbase.io.ImmutableBytesWritable， 而 值 的 类 型 为 org.apache.hadoop.hbase. 


client.Result。Result 类 包含 多 种 根据 列 获取 值 的 方法 ， 在 其 API 文档 (https://hbase. 
apache.org/apidocs/org/apache/hadoop/hbase/client/Result.html) 中 有 所 描述 。 











要 将 Spark 用 于 HBase， 你 需要 使 用 正确 的 输入 格式 调用 SparkContext.newAPIHadoopRDD。 
Scala 中 的 示例 如 例 5-45 所 示 。 


例 5-45: 从 HBase 读 取 数据 的 Scala 示例 


import org.apache.hadoop.hbase.HBaseConfiguration 

import org.apache.hadoop.hbase.client.Result 

import org.apache.hadoop.hbase.io.ImmutableBytesWritable 
import org.apache.hadoop.hbase.mapreduce.TabLeInputFormat 


val conf = HBaseConfiguration.create() 
conf .set(TabLeInputFormat .INPUT_TABLE，"tabLename") // 扫描 哪 张 表 

















val rdd = sc.newAPIHadoopRDD( 
conf，cLassof[TabLeInputFormat]，cLassof[ImmutabLeBytesWritabLe],cLassof[ResuLt]) 





TableInputFormat 包含 多 个 可 以 用 来 优化 对 HBase 的 读 取 的 设置 项 ， 比 如 将 扫描 限制 到 
一 部 分 列 中 ， 以 及 限制 扫描 的 时 间 范 围 。 你 可 以 在 TableInputFormat 的 API 文档 (http:// 
hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/TableInputFormat.html) 中 找到 
这 些 选项 ， 并 在 HBaseConfiguration 中 设置 它们 ， 然 后 再 把 它 传 给 Spark。 














5.5.4 Elasticsearch 


Spark 可 以 使 用 Elasticsearch-Hadoop (https://github.com/elastic/elasticsearch-hadoop) 从 Elasticsearch 
中 读 写 数据 。Elasticsearch 是 一 个 开源 的 、 基 于 Lucene 的 搜索 系统 。 





Elasticsearch 连接 器 和 我 们 研究 过 的 其 他 连接 器 不 大 一 样 ， 它 会 忽略 我 们 提供 的 路 径 信息 ， 
而 依赖 于 在 SparkContext 中 设置 的 配置 项 。Elasticsearch 的 0utputFormat 连接 器 也 没有 用 
到 Spark 所 封装 的 类 型 ， 所 以 我 们 使 用 saveAsHadoopDataSet 来 代替 ， 这 意味 着 我 们 需要 手 
动 设置 更 多 属性 。 让 我 们 通过 例 5-46 和 例 5-47 来 看 看 如 何 对 Elasticsearch 读 写 一 些 简单 
的 数据 。 











最 新 版 的 Elasticsearch Spark 连接 器 用 起 来 更 简单 ， 支 持 返 回 Spark SQL 中 的 
行 对 象 。 这 个 连接 器 仍然 是 隐藏 的 ， 因 为 行 转换 还 不 支持 Elasticsearch 中 所 
有 的 原生 类 型 。 

















例 5-46: 在 Scala 中 使 用 Elasticsearch 输出 


val jobConf = new JobConf(sc.hadoopConfiguration) 
jobConf.set("mapred.output.format.class", "org.elasticsearch.hadoop. 
mr .EsOutputFormat") 

jobConf .setOutputCommitter(classOf[FileOutputCommitter]) 

jobConf .set(ConfigurationOptions.ES_RESOURCE_WRITE, "twitter/tweets") 
jobConf .set(ConfigurationOptions.ES_NODES, "localhost") 
FileOutputFormat.setOutputPath(jobConf, new Path("-")) 
output.saveAsHadoopDataset(jobConf) 


例 5-47: 在 Scala 中 使 用 Elasticsearch 输入 


def mapWritableToInput(in: MapWritable): Map[String, String] = { 
in.map{case (k, v) => (k.toString, v.toString)}.toMap 


} 


val jobConf = new JobConf(sc.hadoopConfiguration) 

jobConf .set(ConfigurationOptions.ES_RESOURCE_READ, args(1)) 

jobConf .set(ConfigurationOptions.ES_NODES, args(2)) 

val currentTweets = sc.hadoopRDD(jobConf, 
classOf[EsInputFormat[Object, MapWritable]], classof[Object], 
classOof[MapWritable]) 

// 仅 提 取 map 

// 将 MapWritabLe[Text，Text] 转 为 Map[Stritng，String] 

val tweets = currentTweets.map{ case (key, valuye) => mapWritableToInput(value) } 
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和 其 他 连接 器 相 比 ，Elasticsearch 连接 器 有 点 复杂 ， 但 这 也 是 对 于 如 何 操作 这 类 连接 器 的 
一 个 有 效 参 考 。 








就 输出 而 言 ，Elasticsearch 可 以 进行 映射 推断 ， 但 是 偶尔 会 推断 出 不 正确 的 
数据 类 型 ， 因 此 如 果 你 要 存储 字符 串 以 外 的 数据 类 型 ， 最 好 明确 指定 类 型 映 


射 (https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-put- 

















mapping.html) 。 


5.6 总 结 


在 本 章 结束 之 际 ， 你 应 该 已 经 能 够 将 数据 读 取 到 Spark 中 ， 并 将 计算 结果 以 你 所 希望 的 方 
式 存储 起 来 。 我 们 调查 了 数据 可 以 使 用 的 一 些 不 同 格 式 ， 一 些 压缩 选项 以 及 它们 对 应 的 数 
据 处 理 的 方式 。 现 在 我 们 已 经 掌握 了 读 取 和 保存 大 规模 数据 集 的 方法 ， 后 续 章 市 会 介绍 一 
些 用 来 编写 更 高 效 更 强大 的 Spark 程序 的 方法 。 
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Spatk 编 程 进 阶 





6.1 简介 


本 章 介 绍 前 儿童 没有 提 及 的 Spark 编程 的 各 种 进 阶 特性 ， 会 介绍 两 种 类 型 的 共享 变量 : 
累加 器 (accumulator) 与 广播 变量 (broadcast variable)。 累 加 器 用 来 对 信息 进行 聚合 ， 而 
广播 变量 用 来 高 效 分 发 较 大 的 对 象 。 在 已 有 的 RDD 转化 操作 的 基础 上 ， 我 们 为 类 似 查 询 
数据 库 这 样 需要 很 大 配置 代价 的 任务 引入 了 批 操 作 。 为 了 扩展 可 用 的 工具 范围 ， 本 章 会 介 
绍 Spark 与 外 部 程序 交互 的 方式 ， 比 如 如 何 与 用 及 语言 编写 的 脚本 进行 交互 。 























本 章 会 使 用 业余 无 线 电 操作 者 的 呼叫 日 志 作为 输入 ， 构 建 出 一 个 完整 的 示例 应 用 。 这 些 日 
志 至 少 包含 联系 过 的 站 点 的 呼号 。 呼 号 是 由 国家 分 配 的 ， 每 个 国家 都 有 自己 的 呼号 号 段 ， 
所 以 我 们 可 以 根据 呼号 查 到 对 应 的 国家 。 有 一 些 呼叫 日 志 也 包含 操作 者 的 地 理 位 置 ， 用 来 
帮助 确定 距离 。 例 6-1 展示 了 一 段 示 例 日 志 。 本 书 的 示例 代码 仓库 中 包含 一 个 需要 从 呼叫 
日 志 中 查询 并 进行 处 理 的 呼号 列表 。 


例 6-1: 一 条 JSON 格式 的 呼叫 日 志 示 例 ， 其 中 某 些 字段 已 省 略 
{"address":"address here", "band":"40m","callsign":"KK6JLK","city":"SUNNYVALE", 
"contactlat":"37.384733","contactlong":"-122.032164"，, 
"county":"Santa Clara","dxcc":"291","fullname":"MATTHEW McPherrin", 
"id":57779,"mode":"FM", "mylat":"37.751952821", "mylong":"-122.4208688735",...} 














要 用 到 的 第 一 个 Spark 特性 就 是 共享 变量 。 共 享 变量 是 一 种 可 以 在 Spark 任务 中 使 用 的 特 
殊 类 型 的 变量 。 在 示例 中 ， 我 们 使 用 Spark 共享 变量 来 对 非 严 重 错误 的 情况 进行 计数 ， 以 
及 分 发 一 张 巨 大 的 查询 表 。 
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当 任 务 需 要 很 长 时 间 进行 配置 ， 璧 如 需要 创建 数据 库 连 接 或 者 随机 数 生成 器 时 ， 在 多 个 数 
据 元 素 间 共 享 一 次 配置 就 会 比较 有 效率 。 由 于 需要 用 到 远程 呼号 查询 数据 库 ， 所 以 会 讨论 
如 何 基 于 分 区 进行 操作 以 重用 数据 库 连接 的 配置 工作 。 


除了 Spark 直接 支持 的 语言 外 ， 系 统 还 可 以 调用 用 别 的 语言 写 出 来 的 程序 。 本 章 会 介绍 如 
何 使 用 与 Spark 语言 无 关 的 方法 pipe() 来 与 其 他 程序 通过 标准 输入 和 标准 输出 进行 交互 。 
我 们 会 使 用 pipe() 方法 来 访问 R 语言 的 库 ， 以 计算 业余 电台 操作 者 每 次 联系 的 距离 。 


最 后 ， 和 操作 键 值 对 类 似 ，Spark 也 有 专门 用 来 操作 数值 数据 的 方法 。 下 面 通过 用 业余 电 
台 呼 叫 日 志 计算 出 来 的 距离 移 除 异 常 值 的 示例 ， 展 示 如 何 使 用 这 些 方法 。 


6.2 累加 史 


通常 在 向 Spark 传递 函数 时 ， 比 如 使 用 map() 函数 或 者 用 filter() 传 条 件 时 ， 可 以 使 用 驱 
动 器 程序 中 定义 的 变量 ， 但 是 集群 中 运行 的 每 个 任务 都 会 得 到 这 些 变量 的 一 份 新 的 副本 ， 
更 新 这 些 副本 的 值 也 不 会 影响 驱动 器 中 的 对 应 变量 。Spark 的 两 个 共享 变量 ， 累 加 器 与 广 
播 变量 ， 分 别 为 结果 聚合 与 广播 这 两 种 常见 的 通信 模式 突破 了 这 一 限制 。 


第 一 种 共享 变量 ， 即 累加 器 ， 提 供 了 将 工作 节点 中 的 值 聚合 到 驱动 器 程序 中 的 简单 语法 。 
累加 器 的 一 个 常见 用 途 是 在 调试 时 对 作业 执行 过 程 中 的 事件 进行 计数 。 例 如 ， 假 设 我 们 在 
从 文件 中 读 取 呼 号 列表 对 应 的 日 志 ， 同 时 也 想 知 道 输入 文件 中 有 多 少 空 行 (也 许 不 希望 在 
有 效 输入 中 看 到 很 多 这 样 的 行 )。 例 6-2 至 例 6-4 展示 了 这 一 场景 。 






































例 6-2: 在 Python 中 累加 空 行 
file = sc.textFile(inputFile) 
# 创建 AccumuLator[Int] 并 初始 化 为 0 


bLankLines = sc.accumulator(0) 








def extractCaLLSigns(Line) : 
global blankLines # 访问 全 局 变量 
if (line == ""): 
blankLines += 1 
return line.split(" ") 


CaLLSigns = file.flatMap(extractCallSigns) 
callSigns.saveAsTextFile(outputDir + "/callsigns") 
print "Blank lines: %d" % blankLines.value 


例 6-3: 在 Scala 中 累加 空 行 


val sc = new SparkContext(...) 
val file = sc.textFile("file.txt") 





val blankLines = sc.accumulator(0) // 创建 Accumulator[Int] 并 初始 化 为 0 





val caLLSigns = file.flatMap(line => { 
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if (line == "") { 
blankLines += 1 // 累加 器 加 1 


line.split(" ") 
}) 


callSigns.saveAsTextFile("output.txt") 
println("Blank lines: " + blankLines.value) 


例 6-4: 在 Java 中 累加 空 行 
JavaRDD<String> rdd = sc.textFile(args[1]); 
final AccumuLator<Integer> bLankLines = sc.accumulator(0); 
JavaRDD<String> callSigns = rdd.flatMap( 
new FlatMapFunction<String, String>() { public Iterable<String> call(String line) { 


if (line.equals("")) { 
blankLines .add(1); 


} 


return Arrays.asList(line.split(" ")); 


}}); 


callSigns.saveAsTextFile("output.txt") 
System.out.printLn("BLank Lines: "+ blankLines.value()); 


在 这 些 示 例 中 ， 我 们 创建 了 一 个 叫 作 blankLines 的 Accumulator[Int] 对 象 ， 然 后 在 输入 
中 看 到 一 个 空 行 时 就 对 其 加 1。 执 行 完 转化 操作 之 后 ， 就 打印 出 累加 器 中 的 值 。 注 意 ， 只 
有 在 运行 saveAsTextFile() 行动 操作 后 才能 看 到 正确 的 计数 ， 因 为 行动 操作 前 的 转化 操作 
flatMap() 是 惰性 的 ， 所 以 作为 计算 副产品 的 累加 器 只 有 在 惰性 的 转化 操作 flatMap() 被 
saveAsTextFile() 行动 操作 强制 触发 时 才 会 开始 求 值 。 

当然 ， 也 可 以 使 用 reduce() 这 样 的 行动 操作 将 整个 RDD 中 的 值 都 聚合 到 驱动 器 中 。 只 是 
我 们 有 时 希望 使 用 一 种 更 简单 的 方法 来 对 那些 与 RDD 本 身 的 范围 和 粒度 不 一 样 的 值 进行 
聚合 。 聚 合 可 以 发 生 在 RDD 进行 转化 操作 的 过 程 中 。 在 前 面 的 例子 中 ， 我 们 使 用 累加 器 
在 读 取 数据 时 对 错误 进行 计数 ， 而 没有 分 别 使 用 filter() 和 reduce()。 


总 结 起 来 ， 累 加 器 的 用 法 如 下 所 示 。 
































。 通过 在 驱动 器 中 调用 SparkContext.accumulator(initialValue) 方 法， 创建 出 存 有 和 初 
始 值 的 累加 器 。 返 回 值 为 org.apache.spark.AccumuLator[T] 对 象 ， 其 中 工 是 初始 值 
initialValue 的 类 型 。 

。 Spark 闭 包 里 的 执行 器 代码 可 以 使 用 累加 器 的 += 方 法 (在 Java 中 是 add) 增 加 累加 器 的 值 。 

。 驱动 器 程序 可 以 调用 累加 器 的 vatue 属性 (在 Java 中 使 用 value() 或 setValue()) 来 访 
问 昧 加 器 的 值 。 

















注意 ， 工 作 节 点 上 的 任务 不 能 访问 累加 器 的 值 。 从 这 些 任 务 的 角度 来 看 ， 累 加 器 是 一 个 只 写 
变量 。 在 这 种 模式 下 ， 累 加 器 的 实现 可 以 更 加 高 效 ， 不 需要 对 每 次 更 新 操作 进行 复杂 的 通信 。 
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这 里 展示 的 计数 在 很 多 时 候 都 非常 方便 ， 比 如 有 多 个 值 需要 跟踪 时 ， 或 者 当 某 个 值 需 
在 并 行程 序 的 多 个 地 方 增 长 时 〈 比 如 你 可 能 需要 对 程序 中 调用 JSON 解析 库 的 次 数 进行 计 
数 )。 例 如 ， 我 们 一 般 预 期 数据 的 一 小 部 分 是 毁坏 的 ， 或 者 允许 后 端 有 一 定 的 失败 数 次 。 
为 了 防止 产生 含有 过 多 错误 的 垃圾 输出 ， 可 以 使 用 累加 器 对 有 效 记 录 和 无 效 记 录 分 别 进行 
计数 。 囚 加 器 的 值 只 有 在 驱动 器 程序 中 可 以 访问 ， 所 以 检查 也 应 当 在 驱动 器 程序 中 完成 。 


继续 之 前 的 示例 ， 现 在 可 以 验证 呼号 ,并且 只 有 在 大 部 分 输入 有 效 时 才 输 出 。 国 际 电 信 联 
盟 在 19 号 文件 中 对 业余 电台 的 呼号 格式 进行 了 规范 ， 我 们 可 以 根据 这 一 规范 ， 使 用 正则 
表达 式 来 验证 呼号 ， 如 例 6-5 所 示 。 


例 6-5: 在 Python 使 用 累加 器 进行 错误 计数 
# 创建 用 来 验证 呼号 的 累加 器 


validSignCount = sc.accumulator(0) 
invalidSignCount = sc.accumulator(0) 







































































def validateSign(sign): 

global validSignCount, invalidSignCount 

if re.match(r"\A\d?[a-zA-Z]{1,2}\d{1,4}[a-zA-Z]{1,3}\Z", sign): 
validSignCount += 1 
return True 

else: 
invalidSignCount += 1 
return False 


# 对 与 每 个 呼号 的 联系 次 数 进行 计数 
validSigns = callSigns.filter(validateSign) 
contactCount = validsigns.map(lambda sign: (sign, 1)).reduceByKey(lambda (x, y): x 


+ y) 


# 强制 求 值 计算 计数 
contactCount.count() 
if invalidSignCount.value < 0.1 * validSignCount.value: 
contactCount.saveAsTextFile(outputDir + "/contactCount") 
else: 
print "Too many errors: %d in %d" % (invalidSignCount.valuyue, validSignCount. 
value) 


6.2.1 累加 器 与 容错 性 

Spark 会 自动 重新 执行 失败 的 或 较 慢 的 任务 来 应 对 有 错误 的 或 者 比较 慢 的 机 器 。 例 如 ， 如 
果 对 某 分 区 执行 map() 操作 的 节点 失败 了 ，Spark 会 在 另 一 个 节点 上 重新 运行 该 任务 。 即 
使 该 节点 没有 月 涡 ， 而 只 是 处 理 速度 比 别 的 节点 慢 很 多 ，Spark 也 可 以 抢占 式 地 在 另 一 个 
节点 上 启动 一 个 “投机 ”(speculative) 型 的 任务 副本 ， 如 果 该 任务 更 早 结束 就 可 以 直接 获 
取 结 果 。 即 使 没有 节点 失败 ，Spark 有 时 也 需要 重新 运行 任务 来 获取 缓存 中 被 移 除 出 内 存 
的 数据 。 因 此 最 终结 果 就 是 同一 个 函数 可 能 对 同一 个 数据 运行 了 多 次 ， 这 取决 于 集群 发 生 
了 什么 。 
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这 种 情况 下 累加 器 要 怎么 处 理 呢 ? 实际 结果 是 ， 对 于 要 在 行动 操作 中 使 用 的 累加 器 ，Spark 
只 会 把 每 个 任务 对 各 累加 器 的 修改 应 用 一 次 。 因 此 ， 如 果 想 要 一 个 无 论 在 失败 还 是 重复 计 
算 时 都 绝对 可 靠 的 累加 器 ， 我 们 必须 把 它 放 在 foreach() 这 样 的 行动 操作 中 。 


对 于 在 RDD 转化 操作 中 使 用 的 累加 器 ， 就 不 能 保证 有 这 种 情况 了 。 转 化 操作 中 累加 器 可 
能 会 发 生 不 止 一 次 更 新 。 举 个 例子 ， 当 一 个 被 缓存 下 来 但 是 没有 经 常 使 用 的 RDD 在 第 一 
次 从 LRU 缓存 中 被 移 除 并 又 被 重新 用 到 时 ， 这 种 非 预期 的 多 次 更 新 就 会 发 生 。 这 会 强制 
RDD 根据 其 谱系 进行 重 算 ， 而 副作用 就 是 这 也 会 使 得 谱系 中 的 转化 操作 里 的 累加 器 进行 更 
新 ， 并 再 次 发 送 到 驱动 器 中 。 在 转化 操作 中 ， 累 加 器 通常 只 用 于 调试 目的 。 


尽管 将 来 版 本 的 Spark 可 能 会 把 这 一 行为 改 成 只 更 新 一 次 累加 器 的 结果 ， 但 当前 版 本 
(1.2.0) 确实 会 进行 多 次 更 新 ， 因 此 转化 操作 中 的 累加 器 最 好 只 在 调试 时 使 用 。 

















6.2.2 ” 自 定 义 累 加 器 


到 目前 为 止 ， 我 们 学 习 了 如 何 使 用 加 法 操作 Spark 的 一 种 累加 器 类 型 整 型 (Accumulator[Int])。 
Spark 还 直接 支持 Double、Long 和 FLoat 型 的 累加 器 。 除 此 以 外 ，Spark 也 引入 了 自 定义 累 
加 器 和 聚合 操作 的 API (比如 找到 要 累加 的 值 中 的 最 大 值 ， 而 不 是 把 这 些 值 加 起 来 )。 自 
定义 累加 器 需要 扩展 AccumulatorParam， 这 在 Spark API 文档 (http://spark.apache.org/docs/ 
latest/api/scala/index.html#package) 中 有 所 介绍 。 只 要 该 操作 同时 满足 交换 律 和 结合 律 ， 就 
可 以 使 用 任意 操作 来 代替 数值 上 的 加 法 。 比 如 除了 跟踪 总 和 ， 还 可 以 跟踪 数据 的 最 大 值 。 























如 果 对 于 任意 的 ac 和 05， 有 aop 5 =2 opa， 就 说 明 操 作 op 满足 交换 律 。 如 
果 对 于 任意 的 a、b 和 c， 有 (a op bopc=aop(opc)， 就 说 明 操 作 op 满足 
结合 律 。 例如 ，sumn 和 max 既 满 足 交 换 律 又 满足 结合 律 ， 是 Spark 累加 器 中 
的 常用 操作 。 





6.3 广播 变量 


Spark 的 第 二 种 共享 变量 类 型 是 广播 变量 ， 它 可 以 让 程序 高 效 地 向 所 有 工作 节点 发 送 一 个 
较 大 的 只 读 值 ， 以 供 一 个 或 多 个 Spark 操作 使 用 。 比 如 ， 如 果 你 的 应 用 需要 向 所 有 节点 发 
送 一 个 较 大 的 只 读 查 询 表 ， 甚 至 是 机 器 学 习 算法 中 的 一 个 很 大 的 特征 向 量 ， 广 播 变量 用 起 
来 都 很 顺手 。 


前 面 提 过 ，Spark 会 自动 把 闭 包 中 所 有 引用 到 的 变量 发 送 到 工作 节点 上 。 虽 然 这 很 方便 ， 
但 也 很 低 效 。 原 因 有 二 : 首先 ， 默认 的 任务 发 射 机 制 是 专门 为 小 任务 进行 优化 的 ， 其 次 ， 
事实 上 你 可 能 会 在 多 个 并 行 操作 中 使 用 同一 个 变量 ,但 是 Spark 会 为 每 个 操作 分 别 发 送 。 
举 个 例子 ， 假 设 要 写 一 个 Spark 程序 ， 通 过 呼号 的 前 绥 来 查询 对 应 的 国家 。 虽 然 前 组 的 长 
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度 不 一 ， 但 由 于 每 个 国家 都 使 用 各 自 的 业余 呼号 前 级 ， 所 以 这 种 方法 还 是 可 行 的 。 如 果 用 
Spark 直接 实现 ， 则 代码 就 如 例 6-6 所 示 。 











例 6-6: 在 Python 中 查询 国家 
# 查询 RDD contactCounts 中 的 呼号 的 对 应 位 置 。 将 呼号 前 组 
# 读 取 为 国家 代码 来 进行 查询 
signPrefixes = LoadCaLLSignTablLe() 


























def processSignCount(sign_count, signprefixes): 
country = lookupCountry(sign_count[0], signprefixes) 
count = sign_count[1] 
return (country, count) 


countryContactCounts = (contactCounts 
.map(processSignCount) 
.reduceByKey((lambda x, y: x+ y))) 


这 个 程序 可 以 运行 ,但 是 如 果 表 更 大 (比如 表 中 不 是 呼号 而 是 IP 地址 )，signPrefixes 很 
容易 就 会 达到 数 MB 大 小 ， 从 主 节 点 为 每 个 任务 发 送 一 个 这 样 的 数组 就 会 代价 巨大 。 而 
且 ， 如 果 之 后 还 要 再 次 使 用 signPrefixes 这 个 对 象 〈 可 能 还 要 在 fle2.txt 上 运行 同样 的 代 
码 )， 则 还 需要 向 每 个 节点 再 发 送 一 遍 。 


























我 们 可 以 把 signPrefixes 变 为 广播 变量 来 解决 这 一 问题 。 广 播 变 量 其 实 就 是 类 型 为 spark. 
broadcast.Broadcast[T] 的 一 个 对 象 ， 其 中 存放 着 类 型 为 T 的 值 。 可 以 在 任务 中 通过 对 
Broadcast 对 象 调用 value 来 获取 该 对 象 的 值 。 这 个 值 只 会 被 发 送 到 各 节点 一 次 ， 使 用 的 是 
一 种 高 效 的 类 似 BitTorrent 的 通信 机 制 。 



































使 用 广播 变量 后 ， 先 前 的 例子 就 改 为 了 如 例 6-7 至 例 6-9 所 示 那 样 。 
例 6-7: 在 Python 中 使 用 广播 变量 查询 国家 


# 查询 RDD contactCounts 中 的 呼号 的 对 应 位 置 。 将 呼号 前 组 
# 读 取 为 国家 代码 来 进行 查询 
signprefixes = sc.broadcast(loadCallSignTable()) 























def processSignCount(sign_count, signprefixes): 
country = lookupCountry(sign_count[0], signprefixes.value) 
count = sign_count[1] 
return (country, count) 


countryContactCounts = (contactCounts 
.map(processSignCount) 
.reduceByKey((lambda x, y: x+ y))) 


countryContactCounts.saveAsTextFile(outputDir + "/countries.txt") 


例 6-8: 在 Scala 中 使 用 广播 变量 查询 国家 


// 查询 RDD contactCounts 中 的 呼号 的 对 应 位 置 . 将 呼号 前 级 
// 读 取 为 国家 代码 来 进行 查询 
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val signprefixes = sc.broadcast(LoadCaLLSignTablLe()) 
val countryContactCounts = contactCounts.map{case (sign, count) => 
val country = lookupInArray(sign, signprefixes.value) 
(country, count) 
}.reduceByKey((x, y) => x + y) 
countryContactCounts.saveAsTextFile(outputDir + "/countries.txt") 


例 6-9: 在 Java 中 使 用 广播 变量 查询 国家 
// 读 入 呼号 表 
// 查询 RDD contactCounts 中 的 呼号 对 应 的 国家 
final Broadcast<String[]> signprefixes = sc.broadcast(loadCallSignTable()); 
JavaPairRDD<String, Integer> countryContactCounts = contactCounts.mapToPair( 
new PairFunction<Tuple2<String, Integer>, String, Integer> (){ 
public Tuple2<String, Integer> call(Tuple2<String, Integer> callSignCount) { 
String sign = callSignCount._1(); 
String country = lookupCountry(sign, callSignInfo.value()); 
return new Tuple2(country, callSignCount._2()); 
}}).reduceByKey(new SumInts()); 
countryContactCounts.saveAsTextFile(outputDir + "/countries.txt"); 





如 以 上 示例 所 示 ， 使 用 广播 变量 的 过 程 很 简单 。 





(1) 通 过 对 一 个 类 型 T 的 对 象 调用 SparkContext.broadcast 创建 出 一 个 Broadcast[T] 对 象 。 
任何 可 序列 化 的 类 型 都 可 以 这 么 实现 。 





te 








(2) 通过 value 属性 访问 该 对 象 的 值 (在 Java 中 为 vatue() 方法 )。 
(3) 变量 只 会 被 发 到 各 个 节点 一 次 ， 应 作为 只 读 值 处 理 (修改 这 个 值 不 会 影响 到 别 的 节点 )。 


满足 只 读 要 求 的 最 容易 的 使 用 方式 是 广播 基本 类 型 的 值 或 者 引用 不 可 变 对 象 。 在 这 样 的 情 
况 下 ， 你 没有 办 法 修改 广播 变量 的 值 ， 除 了 在 驱动 器 程序 的 代码 中 可 以 修改 。 但 是 ， 有 时 
传 一 个 可 变 对 象 可 能 更 为 方便 与 高 效 。 如 果 你 这 样 做 的 话 ， 就 需要 自己 维护 只 读 的 条 件 。 
就 像 对 Array[String] 类 型 的 呼号 前 级 表 所 做 的 那样 ， 必 须 确 保 从 布点 上 运行 的 代码 不 会 
尝试 去 做 诸如 val theArray = broadcastArray.value; theArray(0) = newValue 这 样 的 事 
情 。 当 在 工作 节点 上 执行 时 ， 这 一 行将 newValue 赋 给 数组 的 第 一 个 元 素 ， 但 是 只 对 该 工作 
节点 本 地 的 这 个 数组 的 副本 有 效 ， 而 不 会 改变 任何 其 他 工作 节点 上 通过 broadcastArray. 
value 所 读 取 到 的 内 容 。 


广播 的 优化 

当 广 播 一 个 比较 大 的 值 时 ， 选 择 既 快 又 好 的 序列 化 格式 是 很 重要 的 ， 因 为 如 果 序 列 化 对 象 
的 时 间 很 长 或 者 传送 花费 的 时 间 太 和 久 ， 这 段 时 间 很 容易 就 成 为 性 能 瓶颈 。 尤 其 是 ，Spark 
的 Scala 和 Java API 中 默认 使 用 的 序列 化 库 为 Java 序列 化 库 ， 因 此 它 对 于 除 基 本 类 型 的 数 
组 以 外 的 任何 对 象 都 比较 低 效 。 你 可 以 使 用 spark.serializer 属性 选择 另 一 个 序列 化 库 来 
优化 序列 化 过 程 (第 8 章 中 会 讨论 如 何 使 用 Kryo 这 种 更 快 的 序列 化 库 ) ， 也 可 以 为 你 的 数 
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据 类 型 实现 自己 的 序列 化 方式 (对 Java 对 象 使 用 java.io.Externalizable 接口 实现 序列 
化 ， 或 使 用 reduce() 方法 为 Python 的 pickle 库 定义 自 定义 的 序列 化 )。 


6.4 基于 分 区 进行 操作 


基于 分 区 对 数据 进行 操作 可 以 让 我 们 避免 为 每 个 数据 元 素 进 行 重复 的 配置 工作 。 诸 如 打开 
数据 库 连接 或 创建 随机 数 生成 器 等 操作 ， 都 是 我 们 应 当 尽 量 避 免 为 每 个 元 素 都 配置 一 次 的 
工作 。Spark 提供 基于 分 区 的 map 和 foreach， 让 你 的 部 分 代码 只 对 RDD 的 每 个 分 区 运行 
一 次 ， 这 样 可 以 帮助 降低 这 些 操作 的 代价 。 


回 到 呼号 的 示例 程序 中 来 ， 我 们 有 一 个 在 线 的 业余 电台 呼号 数据 库 ， 可 以 用 这 个 数据 库 查 
询 日 志 中 记录 过 的 联系 人 呼号 列表 。 通 过 使 用 基于 分 区 的 操作 ， 可 以 在 每 个 分 区 内 共享 一 
个 数据 库 连 接地 ， 来 避免 建立 大 多 连接 ， 同 时 还 可 以 重用 JSON 解析 器 。 如 例 6-10 至 例 
6-12 所 示 ， 使 用 mapPartitions 函数 获得 输入 RDD 的 每 个 分 区 中 的 元 素 迭 代 器 ， 而 需要 返 
回 的 是 执行 结果 的 序列 的 迭代 器 。 


例 6-10: 在 Python 中 使 用 共享 连接 池 
def processCallSigns(signs): 
""" 使 用 连接 池 查 询 呼 号 """ 
# 创建 一 个 连接 池 
http = urllib3.PoolManager() 
# 与 每 条 呼号 记录 相关 联 的 URL 
urls = map(lambda x: "http://73s.com/qsos/%s.json" % x, signs) 
# 创建 请 求 ( 非 阻塞 ) 
requests = map(Lambda x: (x, http.request('GET', x)), urls) 
# 获取 结果 
result = map(lambda x: (x[0], json.loads(x[1].data)), requests) 
# 删除 空 的 结果 并 返回 


return filter(lambda x: x[1] is not None, result) 



























































def fetchCallSigns(input): 
UL "获取 呼号 " TI 


return input.mapPartitions(lambda callSigns : processCallSigns(callSigns)) 


contactsContactList = fetchCallSigns(validSigns) 


例 6-11: 在 Scala 中 使 用 共享 连接 池 与 JSON 解析 器 

val contactsContactLists = validSigns.distinct().mappartitions{ 
signs => 
val mapper = createMapper() 
val client = new HttpClient() 
client.start() 
// 创建 http 请 求 
signs.map {sign => 

createExchangeForSign(sign) 
// 获取 响应 


}.map{ case (sign, exchange) => 
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(sign, readExchangeCallLog(mapper, exchange)) 
}.filter(x => x._2 != nuLL) // 删除 空 的 呼叫 日 志 


例 6-12: 在 Java 中 使 用 共享 连接 池 与 JSON 解析 器 


// 使 用 mapPartitions 重 用 配置 工作 
JavaPairRDD<String, CallLog[]> contactsContactLists = 
validCallSigns.mapPartitionsTopair( 
new PairFlatMapFunction<Iterator<String>, String, CallLog[]>() { 
public Iterable<Tuple2<String, CallLog[]>> call(Iterator<String> input) { 
// 列 出 结果 
ArrayList<Tuple2<String, CallLog[]>> callsignLogs = new ArrayList<>(); 
ArrayList<Tuple2<String, ContentExchange>> requests = new ArrayList<>(); 
ObjectMapper mapper = createMapper(); 
HttpClient client = new HttpClient(); 
try { 
client.start(); 
while (input.hasNext()) { 
requests.add(createRequestForSign(input.next(), client)); 
} 
for (Tuple2<String, ContentExchange> signExchange : requests) { 
callsignLogs.add(fetchResultFromRequest(mapper, signExchange)); 




















} 
} catch (Exception e) { 
} 
return callsignLogs; 
}}); 


System.out.println(StringUtils.join(contactsContactLists.collect(), ",")); 




















当 基 于 分 区 操作 RDD 时 ，Spark 会 为 函数 提供 该 分 区 中 的 元 素 的 迭代 器 。 返 回 值 方面 ， 也 
返回 一 个 帮 代 器 。 除 mapPartitions() 外 ，Spark 还 有 一 些 别 的 基于 分 区 的 操作 符 ， 列 在 了 
表 6-1 中 。 


表 6-1: 按 分 区 执行 的 操作 符 






































函数 名 调用 所 提供 的 返回 的 对 于 RDDIT] 的 函数 签名 

mapPartitions() 该 分 区 中 元 素 的 迭代 器 返回 的 元 素 的 运 代 器 f: (Iterator[T]) > 
Iterator[U] 

mapPartitionsWithIndex() 分 区 序号 ， 以 及 每 个 分 区 中 返回 的 元 素 的 迭代 器 ff: (Int，Itera 

的 元 素 的 迭代 器 tor[T]) > Iter 

ator[U] 

foreachpartitions() 元 素 友 代 器 无 f: (Iterator[T]) > 
Unit 


除了 避免 重复 的 配置 工作 ， 也 可 以 使 用 mapPartitions() 避免 创建 对 象 的 开销 。 有 时 需要 创 
建 一 个 对 象 来 将 不 同类 型 的 数据 聚合 起 来 。 回 忆 一 下 第 3 章 中 ， 当 计算 平均 值 时 ， 一 种 方法 
是 将 数值 RDD 转 为 二 元 组 RDD， 以 在 归 约 过 程 中 追踪 所 处 理 的 元 素 个 数 。 现 在 ， 可 以 为 每 


个 分 区 只 创建 一 次 二 元 组 ， 而 不 用 为 每 个 元 素 都 执行 这 个 操作 ， 参 见 例 6-13 和 例 6-14。 
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例 6-13: 在 Python 中 不 使 用 mapPartitions() 求 平均 值 
def combineCtrs(c1, c2): 
return (cl[0] + c2[0], ci[1] + c2[1]) 





def basicAvg(nums): 


"计算 平均 值 """ 


nums .map(Lambda num: (num, 1)).reduce(combineCtrs) 


例 6-14: 在 Python 中 使 用 mapPartitions() 求 平 均值 
def partitionCtr(nums): 
"" "计算 分 区 的 sumCounter""" 
sumCount = [0, 0] 
for num in nums : 
sumCount[0] += num 
sumCount[1] += 1 
return [sumCount] 





def fastAvg(nums): 
"计算 平均 值 '"" 


sumCount = nums.mapPartitions(partitionCtr).reduce(combineCtrs) 
return sumCount[0] / float(sumCount[1]) 


人 AAA 
6.5 与 外 部 程序 间 的 管道 
有 三 种 可 用 的 语言 供 你 选择 ， 这 可 能 已 经 满足 了 你 用 来 编写 Spark 应 用 的 几乎 所 有 需求 。 但 
是 ， 如 果 Scala、Java 以 及 Python 都 不 能 实现 你 需要 的 功能 ， 那 么 Spark 也 为 这 种 情况 提供 
了 一 种 通用 机 制 ， 可 以 将 数据 通过 管道 传 给 用 其 他 语言 编写 的 程序 ， 比 如 及 语言 脚本 。 


Spark 在 RDD 上 提供 ptpe() 方法 。Spark 的 pipe() 方法 可 以 让 我 们 使 用 任意 一 种 语言 
实现 Spark 作业 中 的 部 分 逻辑 ， 只 要 它 能 读 写 Unix 标准 流 就 行 。 通 过 ptpe()， 你 可 以 
将 RDD 中 的 各 元 素 从 标准 输入 流 中 以 字符 串 形 式 读 出 ， 并 对 这 些 元 素 执行 任何 你 需要 
的 操作 ， 然 后 把 结果 以 字符 串 的 形式 写 入 标准 输出 一 一 这 个 过 程 就 是 RDD 的 转化 操作 过 
程 。 这 种 接口 和 编程 模型 有 较 大 的 局 限 性 ， 但 是 有 了 时候 这 恰恰 是 你 想 要 的 ， 比 如 在 map 或 
filter 操作 中 使 用 某 些 语言 原生 的 函数 。 


有 了 时候， 由 于 你 已 经 写 好 并 测试 好 了 一 些 很 复杂 的 软件 ， 所 以 会 希望 把 RDD 中 的 内 容 通 
过 管道 交 给 这 些 外 部 程序 或 者 脚本 来 进行 处 理 并 重用 。 很 多 数据 科学 家 都 用 R! 写 好 的 代 
码 *， 可 以 通过 pipe() 与 程序 进行 交互 。 

在 例 6-15 中 ， 我 们 使 用 一 个 R 语言 的 库 来 计算 所 有 联系 人 的 距离 。 程 序 会 把 RDD 的 每 
个 元 素 都 以 换行 符 作 为 分 隔 符 写 出 去 ， 而 那个 R 程序 输出 的 每 一 行 都 是 字符 串 ， 用 来 构 
成 结果 RDD 中 的 元 素 。 为 了 让 R 程序 能 够 比较 简单 地 解析 输入 ， 我 们 会 把 数据 以 mylat， 
mylon，theirlat，theirlon 的 格式 重新 组 织 。 这 里 使 用 逗号 作为 分 隔 符 。 



















































































注 1: SparkR 在 Spark 1.4.0 中 已 成 为 Spark 的 一 部 分 。 一 一 译 者 注 
注 2: SparkR 项 目 也 使 用 Spark 提供 了 一 个 轻 量 级 前 端 ， 以 便 在 R 中 使 用 Spark。 
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例 6-15: R 语言 的 距离 程序 
#!/usr/bin/env Rscript 
library("Imap") 
f <- file("stdin") 
open(f) 
while(length(line <- readLines(f,n=1)) > 0) { 
# 处 理 行 
contents <- Map(as.numeric, strsplit(line, ",")) 
mydist <- gdist(contents[[1]][1], contents[[1]][2], 
contents[[1]][3], contents[[1]][4], 
units="m", a=6378137.0, b=6356752.3142, verbose = FALSE) 
write(mydist, stdout()) 


} 








下 


如 果 这 段 程序 写 在 一 个 可 执行 文件 ./src/R/finddistance.R 中 ， 那 么 使 用 起 来 应 该 像 这 样 : 








$ ./src/R/finddistance.R 
37.75889318222431,-122.42683635321838,37.7614213,-122.4240097 
349.2602 

coffee 

NA 

ctrl-d 


目前 为 止 一 切 顺利 一 一 可 以 将 stdin 中 的 每 一 行 数据 都 转 为 stdout 中 的 输出 了 。 现 在 需要 


做 的 事情 是 让 每 个 工作 市 点 都 能 访问 finddistance.R， 并 调用 这 个 脚本 来 对 RDD 进行 实 
际 的 转化 操作 。 这 两 个 任务 在 Spark 中 都 很 容易 完成 ， 具 体 可 参考 例 6-16 至 例 6-18。 








例 6-16: 在 Python 中 使 用 pipe() 调用 finddistance.R 的 驱动 器 程序 


# 使 用 一 个 R 语 言 外 部 程序 计算 每 次 呼叫 的 距离 
distScript = "./src/R/finddistance.R" 
distScriptName = "finddistance.R" 
sc.addFile(distScript) 
def hasDistInfo(call): 
"验证 一 次 呼叫 是 否 有 计算 距离 时 必需 的 字段 """ 
requiredFields = ["mylat", "mylong", "contactlat", "contactlong"] 
return all(map(lambda f: call[f], requiredFields)) 
def formatCall(call): 
""" 将 呼叫 按 新 的 格式 重新 组 织 以 使 之 可 以 被 R 程 序 解析 """ 
return "{0},{1},{2},{3}".format( 
call["mylat"], call["mylong"], 
call["contactlat"], call["contactlong"]) 














pipeInputs = contactsContactList.values().flatMap( 

lambda calls: map(formatCall, filter(hasDistInfo, calls))) 
distances = pipeInputs.pipe(SparkFiles.get(distScriptName)) 
print distances.collect() 


例 6-17: 在 Scala 中 使 用 pipe() 调用 finddistance.R 的 驱动 器 程序 
// 使 用 一 个 R 语 言 外 部 程序 计算 每 次 呼叫 的 距离 
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tt 
二 


// 将 脚本 添加 到 各 个 节点 需要 在 本 次 作业 中 下 载 的 文件 的 列 寻 

val distScript = "./src/R/finddistance.R" 

val distScriptName = "finddistance.R" 

sc.addFile(distScript) 

val distances = ContactsContactLists.vaLues.fLatMap(x => x.map(y => 

s"S$y.contactlay,$y.contactlong,$y.mylat,$y.mylong")).pipe(Seq( 

SparkFiles.get(distScriptName))) 

println(distances.collect().toList) 





例 6-18: 在 Java 中 使 用 pipe() 调用 finddistance.R 的 驱动 器 程序 


// 使 用 一 个 R 语 言 外 部 程序 计算 每 次 呼叫 的 距离 
// 将 脚本 添加 到 各 个 节点 需要 在 本 次 作业 中 下 载 的 文件 的 列表 中 
String distScript = "./src/R/finddistance.R"; 
String distScriptName = "finddistance.R"; 
sc.addFile(distScript); 
JavaRDD<String> pipeInputs = ContactsContactLists.vaLues() 
.map(new VerifyCallLogs()).flatMap( 
new FlatMapFunction<CallLog[], String>() { 
public Iterable<String> call(CallLog[] calls) { 
ArrayList<String> latLons = new ArrayList<String>(); 
for (CallLog call: calls) { 
latLons.add(call.mylat + "," + call.mylong + 
+ call.contactlat + "," + call.contactlong); 














"i" 
} 
return latLons; 


} 


]); 
JavaRDD<String> distances = pipeInputs.pipe(SparkFiles.get(distScriptName)); 


System.out.println(StringUtils.join(distances.collect(), ",")); 





通过 SparkContext.addFiLe(path)， 可 以 构建 一 个 文件 列表 ， 让 每 个 工作 节点 在 Spark 作业 
中 下 载 列表 中 的 文件 。 这 些 文件 可 以 来 自 驱 动 器 的 本 地 文件 系统 (如 前 面 几 个 例子 中 所 示范 的 那 
样 )， 或 者 来 自 HDFS 或 其 他 Hadoop 所 支持 的 文件 系统 ， 又 或 者 是 HITP、HITPS 或 FIP 的 URI 
地 址 。 当 作业 中 的 行动 操作 被 触发 时 ， 这 些 文件 就 会 被 各 市 点 下 载 ， 然 后 我 们 就 可 以 在 工作 节点 
上 通过 SparkFiles.getRootDirectory 找到 它们 。 我 们 也 可 以 使 用 SparkFiles.get(Filename) 
来 定位 单个 文件 。 当 然 ， 这 只 是 确保 pipe() 能 够 在 各 工作 节点 上 找到 这 个 脚本 的 方法 之 一 。 
你 可 以 使 用 其 他 的 远程 复制 工具 来 把 脚本 文件 放 到 各 节点 可 以 找到 的 位 置 上 。 





























所 有 通过 sparkContext.addFile(path) 添加 的 文件 都 存储 在 同一 个 目录 中 ， 
所 以 有 必要 使 用 唯一 的 名 字 。 

















一 旦 脚本 可 以 访问 ，RDD 的 pipe() 方法 就 可 以 让 RDD 中 的 元 素 很 容易 地 通过 脚本 管道 。 
假设 有 一 个 更 好 版 本 的 findDistance， 可 以 以 命令 行 参数 的 形式 接收 指定 的 SEPARATOR。 
这 样 的 话 ， 下 面 的 两 种 方法 都 可 以 完成 工作 ， 不 过 我 们 倾向 于 使 用 第 一 种 。 





。 rdd.pipe(Seq(SparkFiles.get("finddistance.R"), ",")) 
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。 rdd.pipe(SparkFiles.get("finddistance.R") + " ,") 





在 第 一 种 方法 中 ， 我 们 将 命令 调用 以 可 定位 的 参数 序列 的 形式 传递 (命令 本 身 在 零 偏 移 位 
置 ) ， 而 在 第 二 种 方法 中 ， 我 们 将 它 作 为 一 个 命令 字符 串 传递 ， 然 后 Spark 会 将 这 个 字符 
串 拆 解 为 可 定位 的 参数 序列 。 


如 果 需 要 的 话 ， 也 可 以 通过 pipe() 指定 命令 行 环境 变量 。 只 需要 把 环境 变量 到 对 应 值 的 映 
射 表 作为 ptpe() 的 第 二 个 参数 传 进去 ，Spark 就 会 设置 好 这 些 E 值 。 


你 现在 至 少 应 该 理解 了 如 何 使 用 pipe()、 通 过 外 部 命令 处 理 RDD 中 的 元 素 ， 以 及 如 何 将 
这 样 的 命令 脚本 分 发 到 集群 各 节点 ， 并 能 让 工作 节点 找到 这 些 脚本 。 


6.6 ”数值 RDD 的 操作 

Spark 对 包含 数值 数据 的 RDD 提供 了 一 些 描述 性 的 统计 操作 。 这 是 我 们 会 在 第 11 章 介 绍 
的 更 复杂 的 统计 方法 和 机 器 学 习 方 法 的 一 个 补充 。 

Spark 的 数值 操作 是 通过 流 式 算法 实现 的 ， 允 许 以 每 次 一 个 元 素 的 方式 构建 出 模型 。 这 些 


统计 数据 都 会 在 调用 stats() 时 通过 一 次 遍历 数据 计算 出 来 ， 并 以 StatsCounter 对 象 返 
回 。 表 6-2 列 出 了 StatsCounter 上 的 可 用 方法 。 






























































表 6-2: StatsCounter 中 可 用 的 汇总 统计 数据 



































方法 含义 

count() RDD 中 的 元 素 个 数 
mean() 元 素 的 平均 值 

sum() 总 和 

max() 最 大 值 

min() 最 小 值 

variance() 元 素 的 方差 
sampleVariance() 从 采样 中 计算 出 的 方差 
stdev() 标准 差 

sampLeStdev() 采样 的 标准 差 

















如 果 你 只 想 计算 这 些 统计 数据 中 的 一 个 ， 也 可 以 直接 对 RDD 调用 对 应 的 方法 ， 比 如 rdd. 
mean() 或 者 rdd.sum( ) 。 


在 例 6-19 至 例 6-21 中 ， 我 们 会 使 用 汇总 统计 来 从 数据 中 移 除 一 些 异 常 值 。 由 于 我 们 会 两 
次 使 用 同一 个 RDD (一 次 用 来 计算 汇总 统计 数据 ， 另 一 次 用 来 移 除 异常 值 )， 因 此 应 该 把 
这 个 RDD 缓存 下 来 。 回 到 呼叫 日 志 的 示例 中 ， 来 看 看 如 何 从 呼叫 日 志 中 移 除 距离 过 远 的 
联系 点 。 
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例 6-19: 用 Python 移 除 异常 值 


# 要 把 String 类 型 RDD 转 为 数字 数据 ,这 样 才 能 
# 使 用 统计 函数 并 移 除 异常 值 
distanceNumerics = distances.map(lambda string: float(string)) 
stats = distanceNumerics.stats() 
stddev = std.stdev() 
mean = stats.mean() 
reasonableDistances = distanceNumerics.filter( 
lambda x: math.fabs(x - mean) < 3 * stddev) 
print reasonableDistances.collect() 

















例 6-20: 用 Scala 移 除 异常 值 





// 现在 要 移 除 一 些 异 常 值 ,因为 有 些 地 点 可 能 是 误 报 的 

// 首先 要 获取 字符 串 RDD 并 将 它 转换 为 双 精 度 浮 点 型 

val distanceDouble = distance.map(string => string.toDouble) 

val stats = distanceDoubles.stats() 

val stddev = stats.stdev 

val mean = stats.mean 

val reasonableDistances = distanceDoubles.filter(x => math.abs(x-mean) < 3 * stddev) 
println(reasonableDistance.collect().toList) 
































例 6-21: 用 Java 移 除 异常 值 











// 首先 要 把 String 类 型 RDD 转 为 DoubLeRDD ,这 样 才能 使 用 统计 函数 
JavaDoubLeRDD distanceDoubles = distances.mapToDouble(new DoubleFunction<String>() { 
public double call(String value) { 
return Double.parseDouble(value); 
}}); 
final StatCounter stats = distanceDoubles.stats(); 
final Double stddev = stats.stdev(); 
final Double mean = stats.mean(); 
JavaDoubleRDD reasonableDistances = 
distanceDoubles.filter(new Function<Double, Boolean>() { 
public Boolean call(Double x) { 
return (Math.abs(x-mean) < 3 * stddev);}}); 
System.out.println(StringUtils.join(reasonableDistance.collect(), ",")); 


























至 此 ， 这 个 示例 应 用 已 经 全 部 讲 完 。 在 这 个 应 用 中 ， 我 们 使 用 了 累加 器 、 广 播 变量 、 基 


于 分 区 处 到 








EE 、 


、 外 部 程序 接口 调用 以 及 汇总 统计 。 完 整 的 源 代码 分 别 可 以 从 src/python/ 




















ChapterSixExample.py、 src/main/scala/com/oreilly/learningsparkexamples/scala/ChapterSixExample. 
scala 以 及 src/main/java/com/oreilly/learningsparkexamples/java/ChapterSixExample.java 中 找到 。 


6.7 总 结 
在 本 章 中 ， 我 们 介绍 了 Spark 编程 中 的 一 些 进 阶 特性 ， 你 可 以 使 用 这 些 特性 使 让 你 的 程序 变 


得 更 高 效 、 更 强大 。 后 续 章节 会 介绍 部 署 与 调 优 Spark 应 用 ， 以 及 Spark 内 建 的 SQL 库 、; 





be 








计算 库 和 机 器 学 习 库 。 此 外 ， 我 们 也 会 开始 接触 一 些 更 复杂 更 完整 的 示例 程序 ， 这 些 示例 会 
用 到 目前 为 止 所 学 过 的 许多 功能 ， 并 且 可 以 为 你 自己 的 Spark 应 用 带 来 指导 和 启发 。 











7 


a 


第 7 章 


在 集群 上 运行 Spark 





7.1 简介 


到 目前 为 止 ， 本 书 一 直 在 讲 如 何 利用 Spark shell 学 习 Spark， 示 例 程 序 也 都 运行 在 Spark 本 
地 模式 下 。 而 Spark 的 一 大 好 处 就 是 可 以 通过 增加 机 器 数量 并 使 用 集群 模式 运行 ， 来 扩展 
程序 的 计算 能 力 。 好 在 编写 用 于 在 集群 上 并 行 执行 的 Spark 应 用 所 使 用 的 API 跟 本 书 之 前 
几 章 所 讨论 的 完全 一 样 。 也 就 是 说 ， 你 可 以 在 小 数据 集 上 利用 本 地 模式 快速 开发 并 验证 你 
的 应 用 ， 然 后 无 需 修改 代码 就 可 以 在 大 规模 集群 上 运行 。 








本 章 首先 介绍 分 布 式 Spark 应 用 的 运行 环境 架构 ， 然 后 讨论 在 集群 上 运行 Spark 应 用 时 的 
一 些 配置 项 。Spark 可 以 在 各 种 各 样 的 集群 管理 器 (Hadoop YARN、Apache Mesos， 还 有 
Spark 自 带 的 独立 集群 管理 器 ) 上 运行 ， 所 以 Spark 应 用 既 能 够 适应 专用 集群 ， 又 能 用 于 
共享 的 云 计算 环境 。 我 们 会 对 各 种 使 用 情况 下 的 优 缺 点 和 配置 方法 进行 探讨 。 同 时 ， 也 会 
讨论 Spark 应 用 在 调度 、 部 署 、 配 置 等 各 方面 的 一 些 细节 。 读 完 本 章 之 后 ， 你 应 该 能 学 会 
运行 分 布 式 Spark 程序 的 一 切 技能 。 下 一 章 会 介绍 如 何 对 Spark 应 用 进行 调试 和 性 能 调 优 。 
































7.2 ”Spark 运行 时 架构 


在 深入 探讨 如 何在 集群 上 运行 spark 之 前 ， 先 来 了 解 一 下 Spark 在 分 布 式 环境 中 的 架构 
( 见 图 7-1)， 这 有 助 于 理解 在 集群 上 运行 Spark 的 一 些 具体 细节 。 


在 分 布 式 环境 下 ，Spark 集群 采用 的 是 主 /从 结构 。 在 一 个 Spark 集群 中 ， 有 一 个 节点 负 
责 中 央 协 调 ， 调 度 各 个 分 布 式 工作 节点 。 这 个 中 央 协 调节 点 被 称 为 驱动 器 【Driver) 节点 ， 
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与 之 对 应 的 工作 节点 被 称 为 执行 器 (executor) 节点 。 驱 动 器 节点 可 以 和 大 量 的 执行 器 节 
点 进行 通信 ， 它 们 也 都 作为 独立 的 Java 进程 运行 。 驱 动 器 节点 和 所 有 的 执行 器 节点 一 起 被 
称 为 一 个 Spark 应 用 (application ) 。 








集群 管理 器 Mesos、 
YARN 或 独立 集群 


管理 器 


























7-1: 分 布 式 Spark 应 用 中 的 组 件 


Spark 应 用 通过 一 个 叫 作 集群 管理 器 (Cluster Manager) 的 外 部 服务 在 集群 中 的 机 器 上 启 
动 。Spark 自 带 的 集群 管理 器 被 称 为 独立 集群 管理 器 。Spark 也 能 运行 在 Hadoop YARN 和 
Apache Mesos 这 两 大 开源 集群 管理 器 上 。 















































7.2.1 驱动 器 节点 

Spark 驱动 器 是 执行 你 的 程序 中 的 main() 方法 的 进程 。 它 执行 用 户 编写 的 用 来 创建 
SparkContext、 创 建 RDD， 以 及 进行 RDD 的 转化 操作 和 行动 操作 的 代码 。 其 实 ， 当 你 局 
动 Spark shell 时 ， 你 就 启动 了 一 个 Spark 驱动 器 程序 (相信 你 还 记得 ，Spark shell 总 是 
会 预先 加 载 一 个 叫 作 sc 的 SparkContext 对 象 ) 。 驱 动 器 程序 一 旦 终止 ，Spark 应 用 也 就 
结束 了 。 


驱动 器 程序 在 Spark 应 用 中 有 下 述 两 个 职责 。 


























。 把 用 户 程序 转 为 任务 
Spark 驱动 器 程序 负责 把 用 户 程 序 转 为 多 个 物理 执行 的 单元 ， 这 些 单元 也 被 称 为 任务 
(task)。 从 上 层 来 看 ， 所 有 的 Spark 程序 都 遵循 同样 的 结构 : 程序 从 输入 数据 创建 一 系 
列 RDD， 再 使 用 转化 操作 派生 出 新 的 RDD， 最 后 使 用 行动 操作 收集 或 存储 结果 RDD 
中 的 数据 。Spark 程序 其 实 是 隐 式 地 创建 出 了 一 个 由 操作 组 成 的 逻辑 上 的 有 向 无 环 图 
(Directed Acyclic Graph， 简 称 DAG)。 当 驱动 器 程序 运行 时 ， 它 会 把 这 个 逻辑 图 转 为 物 
理 执 行 计划 。 























Spark 会 对 逻辑 执行 计划 作 一 些 优化 ， 比 如 将 连续 的 映射 转 为 流水 线 化 执行 ， 将 多 个 操 
作 合并 到 一 个 步骤 中 等 。 这 样 Spark 就 把 逻辑 计划 转 为 一 系列 步骤 《stage)。 而 每 个 步 
又 又 由 多 个 任务 组 成 。 这 些 任务 会 被 打包 并 送 到 集群 中 。 任 务 是 Spark 中 最 小 的 工作 单 
元 ， 用 户 程序 通常 要 启动 成 百 上 千 的 独立 任务 。 














。 为 执行 器 节点 调度 任务 
有 了 物理 执行 计划 之 后 ，Spark 驱动 器 程序 必须 在 各 执行 器 进程 间 协 调任 务 的 调度 。 执 行 
器 进程 启动 后 ， 会 向 驱动 器 进程 注册 自己 。 因 此 ， 了 驱动 器 进程 始终 对 应 用 中 所 有 的 执行 
器 闻 点 有 完整 的 记录 。 每 个 执行 器 节点 代表 一 个 能 够 处 理 任务 和 存储 RDD 数据 的 进程 。 


Spark 驱动 器 程序 会 根据 当前 的 执行 器 市 点 集合 ， 尝 试 把 所 有 任务 基于 数据 所 在 位 置 分 
配给 合适 的 执行 器 进程 。 当 任务 执行 时 ， 执 行 器 进程 会 把 缓存 数据 存储 起 来 ， 而 驱动 器 
进程 同样 会 跟踪 这 些 缓存 数据 的 位 置 ， 并 且 利 用 这 些 位 置信 息 来 调度 以 后 的 任务 ， 以 尽 
量 减少 数据 的 网 络 传输 。 
































驱动 器 程序 会 将 一 些 Spark 应 用 的 运行 时 的 信息 通过 网 页 界面 呈现 出 来 ， 默 认 在 端口 
4040 上 。 比 如 ， 在 本 地 模式 下 ， 访 问 http://localhost:4040 就 可 以 看 到 这 个 网 页 了 。 我 们 
会 在 第 8 章 更 加 详细 地 讲解 Spark 的 网 页 用 户 界面 以 及 Spark 的 作业 调度 机 制 。 





7.2.2 ”执行 器 节点 

Spark 执行 器 节点 是 一 种 工作 进程 ， 负 责 在 Spark 作业 中 运行 任务 ， 任 务 间 相互 独立 。 
Spark 应 用 局 动 时 ， 执 行 器 节点 就 被 同时 启动， 并 且 始 终 伴随 着 整个 Spark 应 用 的 生命 周 
期 而 存在 。 如 果 有 执行 器 节点 发 生 了 异常 或 骨 祺 ，Spark 应 用 也 可 以 继续 执行 。 执 行 器 进 
程 有 两 大 作用 : 第 一 ， 它 们 负责 运行 组 成 Spark 应 用 的 任务 ， 并 将 结果 返回 给 驱动 器 进程 ; 
第 二 ， 它 们 通过 自身 的 块 管理 器 (Block Manager) 为 用 户 程序 中 要 求 缓存 的 RDD 提供 内 
存 式 存储 。RDD 是 直接 缓存 在 执行 器 进程 内 的 ， 因 此 任务 可 以 在 运行 时 充分 利用 缓存 数据 
加 速 运算 。 





























本 地 模式 中 的 驱动 器 程序 和 执行 器 程序 

在 本 书 中 ， 大 部 分 示例 都 是 在 本 地 模式 运行 Spark。 在 本 地 模式 下 ，Spark 驱 
动 器 程序 和 各 执行 器 程序 在 同一 个 Java 进程 中 运行 。 这 是 一 个 特例 ， 执 行 器 
程序 通常 都 运行 在 专用 的 进程 中 。 






































7.2.3 ”集群 管理 器 
到 目前 为 止 ， 我 们 已 经 介绍 了 驱动 器 市 点 和 执行 器 市 点 的 抽象 概念 。 那 么 ， 驱 动 器 节点 和 
执行 器 节点 是 如 何 启动 的 呢 ? Spark 依赖 于 集群 管理 器 来 启动 执行 器 节点 ， 而 在 某 些 特殊 
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情况 下 ， 也 依赖 集群 管理 器 来 启动 驱动 器 节点 。 集 群 管理 器 是 Spark 中 的 可 插 拔 式 组 件 。 
这 样 ， 除 了 Spark 自 带 的 独立 集群 管理 器 ，Spark 也 可 以 运行 在 其 他 外 部 集群 管理 器 上 ， 比 
如 YARN 和 Mesos。 























Spark 文档 中 始终 使 用 驱动 器 节点 和 执行 器 节点 的 概念 来 描述 执行 Spark 
应 用 的 进程 。 而 主 节点 (master) 和 工作 节点 (worker) 的 概念 则 被 用 来 
分 别 表述 集群 管理 器 中 的 中 心 化 的 部 分 和 分 布 式 的 部 分 。 这 些 概念 很 容易 
混淆 ， 所 以 要 格外 小 心 。 例 如 ，Hadoop YARN 会 启动 一 个 叫 作 资源 管理 器 
(Resource Manager) 的 主 节 点 守护 进程 ， 以 及 一 系列 叫 作 节点 管理 器 (Node 
Manager) 的 工作 节点 守护 进程 。 而 在 YARN 的 工作 节点 上 ，Spark 不 仅 可 
以 运行 执行 器 进程 ， 还 可 以 运行 驱动 器 进程 。 











7.2.4 启动 一 个 程序 

不 论 你 使 用 的 是 哪 一 种 集群 管理 器 ， 你 都 可 以 使 用 Spark 提供 的 统一 脚本 spark-submit 将 
你 的 应 用 提交 到 那 种 集群 管理 器 上 。 通 过 不 同 的 配置 选项 ，spark-submit 可 以 连接 到 相应 
的 集群 管理 器 上 ， 并 控制 应 用 所 使 用 的 资源 数量 。 在 使 用 某 些 特定 集群 管理 器 时 ，spark- 
submit 也 可 以 将 驱动 器 节点 运行 在 集群 内 部 (比如 一 个 YARN 的 工作 节点 )。 但 对 于 其 他 
的 集群 管理 器 ， 驱 动 器 节点 只 能 被 运行 在 本 地 机 器 上 。 我 们 会 在 下 一 节 更 加 详细 地 讲解 


Spark-submit。 






























































7.2.5 “小 结 
回顾 在 集群 上 运行 Spark 应 用 的 详细 过 程 ， 可 把 本 节 的 主要 概念 作 如 下 总 结 。 





(1) 用 户 通过 spark-submit 脚本 提交 应 用 。 


(2) spark-submit 脚本 启动 驱动 器 程序 ， 调 用 用 户 定义 的 main() 方法 。 





(3) 驱动 器 程序 与 集群 管理 器 通信 ， 申 请 资源 以 启动 执行 器 市 点 。 
(4) 集群 管理 器 为 驱动 器 程序 启动 执行 器 节点 。 

















(5) 驱动 器 进程 执行 用 户 应 用 中 的 操作 。 根 据 程序 中 所 定义 的 对 RDD 的 转化 操作 和 行动 操 
作 ， 驱 动 器 节点 把 工作 以 任务 的 形式 发 送 到 执行 器 进程 。 


(6) 任务 在 执行 器 程序 中 进行 计算 并 保存 结果 。 


(7) 如 果 驱 动 器 程序 的 main() 方法 退出 ， 或 者 调用 了 SparkContext.stop()， 了 驱动 器 程序 会 
终止 执行 器 进程 ， 并 且 通 过 集群 管理 器 释放 资源 。 









































7.3 使 用 spark-submit 部 署 应 用 


前 面 学 习 过 ，Spark 为 各 种 集群 管理 器 提供 了 统一 的 工具 来 提交 作业 ， 这 个 工具 是 spark- 
submit。 第 2 章 中 有 一 个 使 用 spark-submit 提交 Python 程序 的 简单 示例 ， 这 里 在 例 7-1 中 
重复 一 过。 




















例 7-1: 提交 Python 应 用 
bin/spark-submit my_script.py 

















如 果 在 调用 spark-submit 时 除了 脚本 或 JAR 包 的 名 字 之 外 没有 别 的 参数 ， 那 么 这 个 Spark 
程序 只 会 在 本 地 执行 。 当 我 们 希望 将 应 用 提交 到 Spark 独立 集群 上 的 时 候 ， 可 以 将 独立 集 
群 的 地 址 和 希望 启动 的 每 个 执行 器 进程 的 大 小 作为 附加 标记 提供 ， 如 例 7-2 所 示 。 


例 7-2: 提交 应 用 时 添加 附加 参数 


bin/spark-submit --master spark://host:7077 --executor-memory 10g my_script.py 




















--master 标记 指定 要 连接 的 集群 URL;， 在 这 个 示例 中 ，spark:// 表示 集群 使 用 独立 模式 
( 见 表 7-1)。 稍 后 会 讨论 其 他 的 URL 类 型 。 


表 7-1: spark-submit 的 --master 标 记 可 以 接收 的 值 
































值 描述 

spark://host:port 连接 到 指定 端口 的 Spark 独立 集群 上 。 上 默认 情况 下 Spark 独立 主 节点 使 用 
7077 端口 

mesos://host:port 连接 到 指定 端口 的 Mesos 集群 上 。 上 默认 情况 下 Mesos 主 节 点 监听 5050 端口 

yarn 连接 到 一 个 YARN 集群 。 当 在 YARN 上 运行 时 ， 需 要 设置 环境 变量 HADOOP 
_CONF_DIR 指向 Hadoop 配置 目录 ， 以 获取 集群 信息 

local 运行 本 地 模式 ， 使 用 单 核 

local[N] 运行 本 地 模式 ， 使 用 N 个 核心 

local[*] 运行 本 地 模式 ， 使 用 尽 可 能 多 的 核心 














除了 集群 URL，spark-submit 还 提供 了 各 种 选项 ， 可 以 让 你 控制 应 用 每 次 运行 的 各 项 细 
节 。 这 些 选 项 主要 分 为 两 类 。 第 一 类 是 调度 信息 ， 比 如 你 希望 为 作业 申请 的 资源 量 〈 如 例 
7-2 所 示 )。 第 二 类 是 应 用 的 运行 时 依赖 ， 比 如 需要 部 署 到 所 有 工作 节点 上 的 库 和 文件 。 








spark-submit 的 一 般 格 式 见 例 7-3。 


例 7-3: spark-submit 的 一 般 格式 


bin/spark-submit [options] <app jar | python file> [app options] 


[options] 是 要 传 给 spark-submit 的 标记 列表 。 你 可 以 运行 spark-submit --help 列 出 所 有 
可 以 接收 的 标记 。 表 7-2 列 出 了 一 些 常见 的 标记 。 


<app jar | python File> 表示 包含 应 用 入 口 的 JAR 包 或 Python 脚本 。 
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[app options] 是 传 给 你 的 应 用 的 选项 。 如 果 你 的 程序 要 处 理 传 给 main() 方法 的 参数 ， 它 
只 会 得 到 [app options] 对 应 的 标记 ， 不 会 得 到 spark-submit 的 标记 。 





表 7-2: spark-submit 的 一 些 常见 标记 

标记 描述 

--master 表示 要 连接 的 集群 管理 器 。 这 个 标记 可 接收 的 选项 见 表 7-1 

--deploy-mode 选择 在 本 地 (客户 端 “client”) 启动 驱动 器 程序 ， 还 是 在 集群 中 的 一 台 工 作 节点 机 
器 (集群 “cluster”) 上 启动 。 在 客户 端 模式 下 ，spark-submit 会 将 驱动 器 程序 运行 






















































































在 spark-submit 被 调用 的 这 台 机 器 上 。 在 集群 模式 下 ， 驱 动 器 程序 会 被 传输 并 执行 
于 集群 的 一 个 工作 节点 上 。 默 认 是 本 地 模式 

--CLass 运行 Java 或 Scala 程序 时 应 用 的 主 类 

--name 应 用 的 显示 名 ,会 显示 在 Spark 的 网 页 用 户 界 面 中 

--jars 需要 上 传 并 放 到 应 用 的 CLASSPATH 中 的 JAR 包 的 列表 。 如 果 应 用 依赖 于 少量 第 三 
方 的 JAR 包 ， 可 以 把 它们 放 在 这 个 参数 里 

--files 需要 放 到 应 用 工作 目录 中 的 文件 的 列表 。 这 个 参数 一 般 用 来 放 需 要 分 发 到 各 节点 的 
数据 文件 

--py-files 需要 添加 到 PYTHONPATH 中 的 文件 的 列表 。 其 中 可 以 包含 .py、.egg 以 及 .zip 文件 




















--executor-memory ”执行 器 进程 使 用 的 内 存量 ， 以 字 节 为 单位 。 可 以 使 用 后 组 指定 更 大 的 单位 ， 比 如 
“512m”(512 MB) 或 “15g”(15 GB) 

--driver-memory 驱动 器 进程 使 用 的 内 存量 ， 以 字 节 为 单位 。 可 以 使 月 
“512m”(512 MB) 或 “15g”(15 GB) 






































二 


后 缀 指定 更 大 的 单位 ， 比 如 


spark-submit 还 允许 通过 - -conf prop=value 标记 设置 任意 的 SparkConf 配置 选项 ， 也 可 以 
使 用 --properties-File 指定 一 个 包含 键 值 对 的 属性 文件 。 第 8 章 会 讨论 Spark 的 配置 系统 。 














例 7-4 展示 了 一 些 使 用 各 种 选项 调用 spark-submit 的 例子 ， 这 些 调用 语句 都 比较 长 。 
例 7-4: 使 用 各 种 选项 调用 spark-submit 


# 使 用 独立 集群 模式 提交 Java 应 | 
$ ./bin/spark-submit \ 
--master spark://hostname:7077 \ 
--deploy-mode cluster \ 
--CLass com.databricks.examples.SparkExample \ 
--name "Example Program" \ 
--jars dep1.jar,dep2.jar,dep3.jar \ 
--total-executor-cores 300 \ 
--executor-memory 10g \ 
myApp.jar "options" "to your application 









































go here" 














# 使 用 YARN 客 户 端 模式 提交 Python 应 用 
$ export HADOP_CONF_DIR=/opt/hadoop/conf 
$ ./bin/spark-submit \ 
--master yarn \ 
--py-files somelib-1.2.egg,otherlib-4.4.zip,other-file.py \ 
--deploy-mode client \ 
--name "Example Program" \ 
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--queue exampLeQueue \ 

--num-executors 40 \ 

--executor-memory 10g \ 

my_script.py "options" "to your application" "go here" 


7.4 打包 代码 与 依赖 


本 书 中 大 部 分 示例 程序 都 是 独立 的 ， 不 依赖 于 Spark 以 外 的 库 。 而 通常 用 户 程序 则 需要 依 
赖 第 三 方 的 库 。 如 果 你 的 程序 引入 了 任何 既 不 在 org.apache.spark 包 内 也 不 属于 语言 运行 
时 的 库 的 依赖 ， 你 就 需要 确保 所 有 的 依赖 在 该 Spark 应 用 运行 时 都 能 被 找到 。 


对 于 Python 用 户 而 言 ， 有 多 种 安装 第 三 方 库 的 方法 。 由 于 PySpark 使 用 工作 节点 机 器 上 已 
有 的 Python 环境 ， 你 可 以 通过 标准 的 Python 包 管 理 器 (比如 pip 和 easy_install) 直接 
在 集群 中 的 所 有 机 器 上 安装 所 依赖 的 库 ， 或 者 把 依赖 手动 安装 到 Python 安装 目录 下 的 site- 
packages/ 目录 中 。 你 也 可 以 使 用 spark-submit 的 --py-Files 参数 提交 独立 的 库 ， 这 样 它 
们 也 会 被 添加 到 Python 解释 器 的 路 径 中 。 如 果 你 没有 在 集群 上 安装 包 的 权限 ， 可 以 手动 添 
加 依赖 库 ， 这 也 很 方便 ， 但 是 要 防范 与 已 经 安装 在 集群 上 的 那些 包 发 生 冲 突 。 





























关于 Spark 本 身 


当 你 提交 应 用 时 ， 绝 不 要 把 Spark 本 身 放 在 提交 的 依赖 中 。spark-submit 会 
自动 确保 Spark 在 你 的 程序 的 运行 路 径 中 。 








Java 和 Scala 用 户 也 可 以 通过 spark-submit 的 --jars 标记 提交 独立 的 JAR 包 依 赖 。 当 只 
有 一 两 个 库 的 简单 依赖 ， 并 且 这 些 库 本 身 不 依赖 于 其 他 库 时 ， 这 种 方法 比较 合适 。 但 是 一 
般 Java 和 Scala 的 工程 会 依赖 很 多 库 。 当 你 向 Spark 提交 应 用 时 ， 你 必须 把 应 用 的 整个 依 
赖 传递 图 中 的 所 有 依赖 都 传 给 集群 。 你 不 仅 要 传递 你 直接 依赖 的 库 ， 还 要 传递 这 些 库 的 依 
赖 ， 以 及 它们 的 依赖 的 依赖 ， 等 等 。 和 手动 维 护 和 提交 全 部 的 依赖 JAR 包 是 很 条 的 方法 。 寻 
实 上 ， 常 规 的 做 法 是 使 用 构建 工具 ， 生 成 单个 大 JAR 包 ， 包含 应 用 的 所 有 的 传递 依赖 。 
通常 被 称 为 超级 (uber) JAR 或 者 组 会 (assembly) JAR， 大 多 数 Java 或 Scala 的 构建 工具 
都 支持 生成 这 样 的 工件 。 


Java 和 Scala 中 使 用 最 广泛 的 构建 工具 是 Maven 和 sbt。 它 们 都 可 以 用 于 这 两 种 语言 ， 不 过 
Maven 通常 用 于 Java 工程 ， 而 sbt 则 一 般 用 于 Scala 工程 。 在 这 里 ， 我 们 会 分 别针 对 使 用 
这 两 种 工具 构建 Spark 应 用 给 出 相应 的 例子 。 你 可 以 把 这 里 的 示例 当 作 自己 构建 Spark 工 
程 的 模板 。 
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7.4.1 使 用 Maven 构 建 的 用 Java 编 写 的 Spark 应 用 

下 面 来 看 一 个 有 多 个 依赖 的 Java 工程 ， 在 示例 中 我 们 会 将 它 打包 为 一 个 超级 JAR 包 。 例 
7-5 提供 了 Maven 的 pom.xml 文件 ， 其 中 包含 本 次 构建 的 定义 。 这 个 例子 没有 展示 实际 的 
Java 代码 与 工程 的 目录 结构 。Maven 中 默认 的 用 户 代 码 在 工程 根 目 录 (该 目录 应 包含 pom. 
xml 文件 ) 下 的 src/main/java 目录 中 。 























例 7-5: 使 用 Maven 构建 的 Spark 应 用 的 pom.xml 文件 


<project> 
<modelVersion>4.0.0</modelVersion> 




















<!-- 工程 相关 信息 --> 
<groupId>com.databricks</groupId> 
<artifactId>example-build</artifactId> 
<name>Simple Project</name> 
<packaging>jar</packaging> 
<version>1.0</version> 


<dependencies> 

<!-- Spark 依 赖 --> 

<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-core_2.10</artifactId> 
<version>1.2.0</version> 
<scope>provided</scope> 

</dependency> 

<!-- 第 三 方 库 --> 

<dependency> 
<groupId>net.sf.jopt-simple</groupId> 
<artifactId>jopt-simple</artifactId> 
<version>4.3</version> 

</dependency> 

<!-- 第 三 方 库 --> 

<dependency> 
<groupId>joda-time</groupId> 
<artifactId>joda-time</artifactId> 
<version>2.0</version> 

</dependency> 

</dependencies> 








<build> 
<plugins> 
<!-- 用 来 创建 超级 JAR 包 的 Maven shade 插 件 --> 
<plugin> 
<groupId>org.apache.maven.pLugins</groupId> 
<artifactId>maven-shade-plugin</artifactId> 
<version>2.3</version> 
<executions> 
<execution> 
<phase>package</phase> 
<goals> 
<goal>shade</goal> 








</goals> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 
</project> 


这 个 工程 声明 了 两 个 传递 依赖 ，jopt-simple 和 joda-time， 前 者 用 来 作 选 项 解析 ， 而 后 者 
是 一 个 用 来 处 理 时 间 日 期 转换 的 工具 库 。 这 个 工程 也 依赖 于 Spark， 不 过 我 们 把 Spark 标记 
为 provided 来 确保 Spark 不 与 应 用 依赖 的 其 他 工件 打包 在 一 起 。 构 建 时 ， 我 们 使 用 maven- 
shade-plugin 插件 来 创建 出 包含 所 有 依赖 的 超级 JAR 包 。 你 可 以 让 Maven 在 每 次 进行 打 
包 时 执行 插件 的 shade 目标 来 使 用 此 播 件 。 使 用 这 样 的 构建 配置 ， 超 级 JAR 包 就 会 在 执行 




















mvn package 时 自动 创建 出 来 〈( 见 例 7-6) 。 





例 7-6: 打包 使 用 Maven 构建 的 Spark 应 用 
$ mvn package 
# 在 目标 路 径 中 ,可 以 看 到 超级 JAR 包 和 原版 打包 方法 生成 的 JAR 包 
$ ls target/ 
example-build-1.0.jar 
original-example-build-1.0.jar 
# 展开 超级 JAR 包 可 以 看 到 依赖 库 中 的 类 
$ jar tf target/example-build-1.0.jar 














joptsimple/HelpFormatter .class 
org/joda/time/tz/UTCProvider .class 


# 超级 JAR 可 以 直接 传 给 spark-submit 


$ /path/to/spark/bin/spark-submit --master local ... target/example-build-1.0.jar 


7.4.2 ”使 用 sbt 构 建 的 用 Scala 编 写 的 Spark 应 用 





sbt 是 一 个 通常 在 Scala 工程 中 使 用 的 比较 新 的 构建 工具 。sbt 预期 的 目录 结构 和 Maven 相 
似 。 在 工程 的 根 目 录 中 ， 你 要 创建 出 一 个 叫 作 build.sbt 的 构建 文件 ， 源 代码 则 应 该 放 在 
src/main/scala 中 。sbt 构建 文件 是 用 配置 语言 写成 的 ， 在 这 个 文件 中 我 们 把 值 赋 给 特定 的 
键 ， 用 来 定义 工程 的 构建 。 例 如 ， 有 一 个 键 叫 作 name， 是 用 来 指定 工程 名 字 的 ， 还 有 一 个 
键 叫 作 LibraryDependencies， 用 来 指定 工程 的 依赖 列表 。 例 7-7 给 出 了 一 个 依赖 于 Spark 
和 一 些 第 三 方 库 的 简单 应 用 的 sbt 完整 构建 文件 。 这 个 构建 文件 适用 于 sbt 0.13。sbt 正在 




















快速 发 展 中 ， 因 此 你 可 能 需要 读 一 读 最 新 的 文档 ， 以 了 解构 建文 件 格式 上 的 改变 。 








例 7-7: 使 用 sbt 0.13 的 Spark 应 用 的 build.sbt 文件 
import AssemblyKeys._ 


name := "Simple Project" 





在 集群 上 运行 Spark 


version := "1.0" 
organization := "com.databricks" 
scalaVersion := "2.10.3" 


libraryDependencies ++= Seq( 
// Spark 依 赖 
"org.apache.spark" % "spark-core 2.10" % "1.2.0" % "provided", 
// 第 三 方 库 
"net.sf.jopt-simple" % "jopt-simple" % "4.3", 
"joda-time" % "joda-time" % "2.0" 





) 


// 这 条 语句 打开 了 assembly 插 件 的 功能 
assemblySettings 


// 配置 assembly 插 件 所 使 用 的 JAR 


jarName in assembly := "my-project-assembly.jar" 

















// 一 个 用 来 把 Scala 本 身 排除 在 组 合 JAR 包 之 外 的 特殊 选项 ,因为 spark 
// 已 经 包含 了 Scala 
assemblyOption in assembly := 

(assemblyOption in assembly).value.copy(includeScala = false) 


























这 个 构建 文件 的 第 一 行 从 插件 中 引入 了 一 些 功 能 ， 这 个 插件 用 来 支持 创建 项 目的 组 合 JAR 
包 。 要 使 用 这 个 插件 ， 需 要 在 project/ 目录 下 加 入 一 个 小 文件 ， 来 列 出 对 插件 的 依赖 。 我 
们 只 需要 创建 出 project/assembly.sbt 文件 ， 并 在 其 中 加 入 addSbtPlugin("com.eed3sign" % 
"sbt-assembly”% "0.11.2")。sbt-assembly 的 实际 版 本 可 能 会 因 使 用 的 sbt 版 本 不 同 而 变 
化 。 例 7-8 适用 于 sbt 0.13。 


例 7-8: 在 sbt 工程 构建 中 添加 assembly 插件 


# 显示 project/assembly.sbt 的 内 容 
$ cat project/assembly.sbt 
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2") 


























定义 好 了 构建 文件 之 后 ， 就 可 以 创建 出 一 个 完全 组 合 打包 的 Spark 应 用 JAR 包 ( 例 7-9)。 





例 7-9: 打包 使 用 sbt 构建 的 Spark 应 用 
$ sbt assembLy 
# 在 目标 路 径 中 ,可 以 看 到 一 个 组 合 JAR 包 
$ ls target/scala-2.10/ 
my-project-assembly.jar 
# 展开 组 合 JAR 包 可 以 看 到 依赖 库 中 的 类 
$ jar tf target/scala-2.10/my-project-assembly.jar 

















joptsimple/HelpFormatter .class 
org/joda/time/tz/UTCProvider .class 


# 组 合 JAR 可 以 直接 传 给 spark-submit 
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$ /path/to/spark/bin/spark-submit --master LocaL ... 
target/scala-2.10/my-project-assembly.jar 


7.4.3 依赖 冲突 
当 用 户 应 用 与 Spark 本 身 依 赖 同 一 个 库 时 可 能 会 发 生 依赖 冲突 ， 导 致 程序 崩溃 。 这 种 情况 
不 是 很 常见 ， 但 是 出 现 的 时 候 也 让 人 很 头疼 。 通 常 ， 依 赖 冲 突 表现 为 Spark 作业 执行 过 
程 中 抛 出 NosuchMethodError、CLassNotFoundException， 或 其 他 与 类 加 载 相 关 的 JVM 异 
第 。 对 于 这 种 问题 ， 主 要 有 两 种 解决 方式 : 一 是 修改 你 的 应 用 ， 使 其 使 用 的 依赖 库 的 版 本 
与 Spark 所 使 用 的 相同 ， 二 是 使 用 通常 被 称 为 “shading” 的 方式 打包 你 的 应 用 。Maven 构 
建 工 具 通 过 对 例 7-5 中 使 用 的 插件 (事实 上 ，shading 的 功能 也 是 这 个 插件 取 名 为 maven- 
shade-pLugin 的 原因 ) 进行 高 级 配置 来 支持 这 种 打包 方式 。shading 可 以 让 你 以 另 一 个 命名 
空间 保留 冲突 的 包 ， 并 自动 重 写 应 用 的 代码 使 得 它们 使 用 重 命名 后 的 版 本 。 这 种 技术 有 些 
简单 粗暴 ， 不 过 对 于 解决 运行 时 依赖 冲突 的 问题 非常 有 效 。 如 果 要 了 解 使 用 这 种 打包 方式 
的 具体 步骤 ， 请 参阅 你 所 使 用 的 构建 工具 对 应 的 文档 。 


7.5 _ Spark 应 用 内 与 应 用 间 调 度 


刚才 的 例子 中 只 有 一 个 用 户 向 集群 提交 作业 。 而 在 现实 中 ， 许 多 集群 是 在 多 个 用 户 间 共享 
的 。 共 享 的 环境 会 带 来 调度 方面 的 挑战 ， 如 果 两 个 用 户 都 启动 了 希望 使 用 整个 集群 所 有 资 
源 的 应 用 ， 该 如 何 处 理 呢 ? Spark 有 一 系列 调度 策略 来 保障 资源 不 会 被 过 度 使 用 ， 还 允许 
工作 负载 设置 优先 级 。 


在 调度 多 用 户 集群 时 ，Spark 主要 依赖 集群 管理 器 来 在 Spark 应 用 间 共 享 资源 。 当 Spark 应 
用 向 集群 管理 器 申请 执行 器 节点 时 ， 应 用 收 到 的 执行 器 节点 个 数 可 能 比 它 申请 的 更 多 或 者 
更 少 ， 这 取决 于 集群 的 可 用 性 与 争 用 。 许 多 集群 管理 器 支持 队列 ， 可 以 为 队列 定义 不 同 优 
先 级 或 容量 限制 ， 这 样 Spark 就 可 以 把 作业 提交 到 相应 的 队列 中 。 请 查看 你 所 使 用 的 集群 
管理 器 的 文档 获取 详细 信息 。 
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Spark 应 用 有 一 种 特殊 情况 ， 就 是 那些 长 期 运行 (long lived) 的 应 用 。 这 意味 着 这 些 应 用 
从 不 主动 退出 。Spark SQL 中 的 JDBC 服务 器 就 是 一 个 长 期 运行 的 Spark 应 用 。 当 JDBC 
服务 器 启动 后 ， 它 会 从 集群 管理 器 获得 一 系列 执行 器 节点 ， 然 后 就 成 为 用 户 提交 SQL 查询 
的 永久 入 口 。 由 于 这 个 应 用 本 身 就 是 为 多 用 户 调度 工作 的 ， 所 以 它 需 要 一 种 细 粒 度 的 调度 
机 制 来 强制 共享 资源 。Spark 提供 了 一 种 用 来 配置 应 用 内 调度 策略 的 机 制 。Spark 内 部 的 公 
平 调度 器 (Fair Scheduler) 会 让 长 期 运行 的 应 用 定义 调度 任务 的 优先 级 队列 。 本 书 对 这 部 
分 内 容 未 作 深入 探讨 ， 若 想 了 解 详情 ， 请 参考 公平 调度 器 的 官方 文档 : (http://spark.apache. 
org/docs/latestjob-scheduling.html) 。 
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7.6 ”集群 管理 器 


Spark 可 以 运行 在 各 种 集群 管理 器 上 ， 并 通过 集群 管理 器 访问 集群 中 的 机 器 。 如 果 你 只 想 
在 一 堆 机 器 上 运行 Spark， 那 么 自 带 的 独立 模式 是 部 署 该 集群 最 简单 的 方法 。 然 而 ， 如 
果 你 有 一 个 需要 与 别 的 分 布 式 应 用 共享 的 集群 (比如 既 可 以 运行 Spark 作业 又 可 以 运行 
Hadoop MapReduce 作业 )，Spark 也 可 以 运行 在 两 个 广泛 使 用 的 集群 管理 器 
YARN 与 Apache Mesos 上 面 。 最 后 ， 在 把 Spark 部 署 到 Amazon EC2 上 时 ，Spark 有 个 自 
带 的 脚本 可 以 局 动 独立 模式 集群 以 及 各 种 相关 服务 。 本 节 会 介绍 如 何在 这 些 环境 中 分 别 运 
行 Spark。 
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7.6.1 独立 集群 管理 器 

Spark 独立 集群 管理 器 提供 在 集群 上 运行 应 用 的 简单 方法 。 这 种 集群 管理 器 由 一 个 主 节 点 
和 几 个 工作 节点 组 成 ， 各 自 都 分 瑟 有 一 定量 的 内 在 和 CPU 核心 。 当 提交 应 用 时 ， 你 可 以 
配置 执行 器 进程 使 用 的 内 存量 ， 以 及 所 有 执行 器 进程 使 用 的 CPU 核心 总 数 。 


1. 启动 独立 集群 管理 器 

要 启动 独立 集群 管理 器 ， 你 既 可 以 通过 手动 启动 一 个 主 节 点 和 多 个 工作 节点 来 实现 ， 也 可 
以 使 用 Spark 的 sbin 目录 中 的 启动 脚本 来 实现 。 启 动 脚 本 使 用 最 简单 的 配置 选项 ， 但 是 需 
要 预先 设置 机 器 间 的 SSH 无 密码 访问 。 在 Spark 1.1 中 ， 启 动 脚本 仅 适 用 于 Mac OS X 和 
Linux。 我 们 会 先 讲 这 两 个 操作 系统 上 独立 集群 管理 器 的 启动 方法 ， 然 后 再 展示 在 其 他 平台 
上 如 何 启动 集群 。 


要 使 用 集群 启动 脚本 ， 请 按 如 下 步骤 执行 。 
















































































(1) 将 编译 好 的 Spark 复制 到 所 有 机 器 的 一 个 相同 的 目录 下 ， 比 如 /home/yourname/spark。 


(2) 设置 好 从 主 节点 机 器 到 其 他 机 器 的 SSH 无 密码 登陆 。 这 需要 在 所 有 机 器 上 有 相同 的 用 
户 账号 ， 并 在 主 节 点 上 通过 ssh-keygen 生成 SSH 私 钥 ， 然 后 将 这 个 私 钥 放 到 所 有 工作 
节点 的 .ssh/authorized_keys 文件 中 。 如 果 你 之 前 没有 设置 过 这 种 配置 ， 你 可 以 使 用 如 下 
命令 : 


























# 在 主 节点 上 :运行 ssh-keygen 并 接受 默认 选项 

$ ssh-keygen -t dsa 

Enter file in which to save the key (/home/you/.ssh/id_dsa): [ 回 车 ] 
Enter passphrase (empty for no passphrase): [ 空 ] 

Enter same passphrase again: [ 空 ] 

















## 在 工作 节点 上 : 

# 把 主 节 点 的 ~/.ssh/id_dsa.pub 文 件 复制 到 工作 节点 上 ,然后 使 用 : 
$ cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized_keys 

$ chmod 644 ~/.ssh/authorized_ keys 














(3) 编辑 主 市 点 的 conf/slaves 文件 并 填 上 所 有 工作 市 点 的 主机 名 。 


(4) 在 主 节点 上 运行 sbin/start-all.sh (要 在 主 节 点 上 运行 而 不 是 在 工作 节点 上 ) 以 启动 集群 。 
如 果 全 部 启动 成 功 ， 你 不 会 得 到 需要 密码 的 提示 符 ， 而 且 可 以 在 http://masternode:8080 
看 到 集群 管理 器 的 网 页 用 户 界面 ， 上 面 显 示 着 所 有 的 工作 节点 。 





(5) 要 停止 集群 ， 在 主 节 点 上 运行 bin/stop-all.sh。 
如 有 果 你 使 用 的 不 是 UNIX 系统 ， 或 者 想 手动 启动 集群 ， 你 也 可 以 使 用 Spark 的 bin/ 目录 下 
的 spark-class 脚本 分 别 手动 启动 主 节 点 和 工作 节点 。 在 主 节 点 上 ， 输 入 : 

bin/spark-class org.apache.spark.depLoy.master .Master 
然后 在 工作 市 点 上 输入 : 

bin/spark-class org.apache.spark.deploy.worker .Worker spark://masternode:7077 
(其 中 masternode 是 你 的 主 节 点 的 主机 名 )。 在 Windows 中 ， 使 用 \ 来 代替 /。 


默认 情况 下 ， 集 群 管理 器 会 选择 合适 的 默认 值 自动 为 所 有 工作 节点 分 配 CPU 核心 与 内 
存 。 配 置 独立 集群 管理 器 的 更 多 细节 请 参考 Spark 的 官方 文档 (http://spark.apache.org/docs/ 
latest/spark-standalone.html) 5 


2. 提交 应 用 


要 向 独立 集群 管理 器 提交 应 用 ， 需 要 把 spark://masternode:7077 作为 主 节 点 参数 传 给 
spark-submit。 例 如 : 























spark-submit --master spark://masternode:7077 yourapp 


这 个 集群 的 URL 也 显示 在 独立 集群 管理 器 的 网 页 界面 (位 于 http://masternode:8080) 上 。 
注意 ， 提 交 时 使 用 的 主机 名 和 端口 号 必须 精确 匹配 用 户 界面 中 的 URL。 这 有 可 能 会 使 得 使 
用 也 地 址 而 非 主机 名 的 用 户 遇 到 问题 。 即 使 下 地址 绑 定 到 同一 台 主 机 上 ， 如 果 名 字 不 是 
完全 匹配 的 话 ， 提 交 也 会 失败 。 有 些 管理 员 可 能 会 配置 Spark 不 使 用 7077 端口 而 使 用 别 的 
端口 。 要 确保 主机 名 和 端口 号 的 一 致 性 ， 一 个 简单 的 方法 是 从 主 节 点 的 用 户 界面 中 直接 复 
制 粘贴 URL。 












































你 可 以 使 用 - -master 参数 以 同样 的 方式 启动 spark-shell 或 pyspark， 来 连接 到 该 集群 上 : 


spark-shell --master spark://masternode:7077 
pyspark --master spark://masternode:7077 























要 检查 你 的 应 用 或 者 shell 是 否 正在 运行 ， 你 需要 查看 集群 管理 器 的 网 页 用 户 界面 http:// 
masternode:8080 并 确保 : (1) 应 用 连接 上 了 ( 即 出 现在 了 Running Applications 中 ) ; (2) 
列 出 的 所 使 用 的 核心 和 内 存 均 大 于 0。 
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阻碍 应 用 运行 的 一 个 常见 陷阱 是 为 执行 器 进程 申请 的 内 存 (spark-submit 的 
--executor-memory 标记 传递 的 值 ) 超过 了 集群 所 能 提供 的 内 存 总 量 。 在 这 种 
情况 下 ， 独 立 集群 管理 器 始终 无 法 为 应 用 分 配 执行 器 节点 。 请 确保 应 用 申请 
的 值 能 够 被 集群 接受 。 











最 后 ， 独 立 集群 管理 器 支持 两 种 部 署 模式 。 在 这 两 种 模式 中 ， 应 用 的 驱动 器 程序 运行 在 不 
同 的 地 方 。 在 客户 端 模 式 中 (默认 情况 )， 驱 动 器 程序 会 运行 在 你 执行 spark-submit 的 机 
器 上 ， 是 spark-submit 命令 的 一 部 分 。 这 意味 着 你 可 以 直接 看 到 驱动 器 程序 的 输出 ， 也 
可 以 直接 输入 数据 进去 (通过 交互 式 shell) ， 但 是 这 要 求 你 提交 应 用 的 机 器 与 工作 节点 间 
有 很 快 的 网 络 速度 ， 并 且 在 程序 运行 的 过 程 中 始终 可 用 。 相 反 ， 在 集群 模式 下 ， 驱 动 器 程 
序 会 作为 某 个 工作 市 点 上 一 个 独立 的 进程 运行 在 独立 集群 管理 器 内 部 。 它 也 会 连接 主 市 点 
来 申请 执行 器 节点 。 在 这 种 模式 下 ，spark-submit 是 “一 劳 永 逸 ”型 ， 你 可 以 在 应 用 运行 
时 关 掉 你 的 电脑 。 你 还 可 以 通过 集群 管理 器 的 网 页 用 户 界面 访问 应 用 的 日 志 。 向 spark- 
submit 传递 - -depLoy-mode cluster 参数 可 以 切换 到 集群 模式 。 
































3. 配置 资源 用 量 

如 果 在 多 应 用 间 共 享 Spark 集群 ， 你 需要 决定 如 何在 执行 器 进程 间 分 配 资 源 。 独 立 集群 
管理 器 使 用 基础 的 调度 策略 ， 这 种 策略 允许 限制 各 个 应 用 的 用 量 来 让 多 个 应 用 并 发 执行 。 
Apache Mesos 支持 应 用 运行 时 的 更 动态 的 资源 共享 ， 而 YARN 则 有 分 级 队列 的 概念 ， 可 
以 让 你 限制 不 同类 别 的 应 用 的 用 量 。 


在 独立 集群 管理 器 中 ， 资 源 分 配 靠 下 面 两 个 设置 来 控制 。 


























。 执行 器 进程 内 存 
你 可 以 通过 spark-submit 的 --executor-memory 参数 来 配置 此 项 。 每 个 应 用 在 每 个 工作 
节点 上 最 多 拥有 一 个 执行 器 进程 ,因此 这 个 设置 项 能 够 控制 执行 器 节点 占用 工作 节点 的 
多 少 内 存 。 此 设置 项 的 默认 值 是 1 GB， 在 大 多 数 服 务 器 上 ， 你 可 能 需要 提高 这 个 值 来 
充分 利用 机 器 。 





。 占用 核心 总 数 的 最 大 值 
这 是 一 个 应 用 中 所 有 执行 器 进程 所 占用 的 核心 总 数 。 此 项 的 默认 值 是 无 限 。 也 就 是 说 ， 
应 用 可 以 在 集群 所 有 可 用 的 节点 上 启动 执行 器 进程 。 对 于 多 用 户 的 工作 负载 来 说 ， 你 应 
该 要 求 用 户 限 制 他 们 的 用 量 。 你 可 以 通过 spark-submit 的 - -totaL-executorcores 参数 
设置 这 个 值 ， 或 者 在 你 的 Spark 配置 文件 中 设置 spark.cores.max 的 值 。 








要 验证 这 些 设 定 ， 你 可 以 从 独立 集群 管理 器 的 网 页 用 户 界 面 (http:/masternode:8080) 中 查 
看 当前 的 资源 分 配 情 况 。 








注 1: 虽然 一 个 从 布点 只 能 运行 一 个 执行 器 进程 ， 但 是 一 台 机 器 上 可 以 运行 多 个 从 市 点 。 一 一 译 者 注 
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最 后 ， 独 立 集群 管理 器 在 默认 情况 下 会 为 每 个 应 用 使 用 尽 可 能 分 散 的 执行 器 进程 。 例 
如 ， 假 设 你 有 一 个 20 个 物理 节点 的 集群 ， 每 个 物理 节点 是 一 个 四 核 的 机 器 ， 然 后 你 使 用 
--executor-memory 1G 和 --totaL-executor-cores 8 提交 应 用 。 这 样 Spark 就 会 在 不 同 机 
器 上 启动 8 个 执行 器 进程 ， 每 个 1 GB 内 存 。Spark 默认 这 样 做 ， 以 尽量 实现 对 于 运行 在 相 
同 机 器 上 的 分 布 式 文件 系统 (比如 HDFS) 的 数据 本 地 化 ， 因 为 这 些 文件 系统 通常 也 把 数 
据 分 散 到 所 有 物理 节点 上 。 如 果 你 愿意 ， 可 以 通过 设置 配置 属性 spark.deploy.spreadOut 
为 false 来 要 求 Spark 把 执行 器 进程 合并 到 尽量 少 的 工作 节点 中 。 在 这 样 的 情况 下 ， 前 酝 
那个 应 用 就 只 会 得 到 两 个 执行 器 节点 ， 每 个 有 1 GB 内 存 和 4 个 核心 。 这 一 设 定 会 影响 运 
行 在 独立 模式 集群 上 的 所 有 应 用 ， 并 且 必 须 在 启动 独立 集群 管理 器 之 前 设置 好 。 






























































4. 高 度 可 用 性 

当 在 生产 环境 中 运行 时 ， 你 会 希望 你 的 独立 模式 集群 始终 能 够 接收 新 的 应 用 ， 哪 怕 当 前 集 
群 中 所 有 的 节点 都 崩溃 了 。 其 实 ， 独 立 模式 能 够 很 好 地 支持 工作 节点 的 故障 。 如 果 你 想 让 
集群 的 主 节 点 也 拥有 高 度 可 用 性 ，Spark 还 支持 使 用 Apache ZooKeeper (一 个 分 布 式 协调 
系统 ) 来 维护 多 个 备用 的 主 节 点 ， 并 在 一 个 主 节点 失败 时 切换 到 新 的 主 节点 上 。 为 独立 集 
群 配置 ZooKeeper 不 在 本 书 的 探讨 范围 内 ， 不 过 在 Spark 官方 文档 (https://spark.apache. 
org/docs/latest/spark-standalone.html#high-availability) 中 有 所 描述 。 


















































7.6.2 Hadoop YARN 

YARN 是 在 Hadoop 2.0 中 引入 的 集群 管理 器 ， 它 可 以 让 多 种 数据 处 理 框架 运行 在 一 个 共享 
的 资源 池上 ， 并 且 通 常安 装 在 与 Hadoop 文件 系统 (简称 HDFS) 相同 的 物理 节点 上 。 在 
这 样 配置 的 YARN 集群 上 运行 Spark 是 很 有 意义 的 ， 它 可 以 让 Spark 在 存储 数据 的 物理 节 
点 上 运行 ， 以 快速 访问 HDFS 中 的 数据 。 


























在 Spark 里 使 用 YARN 很 简单 : 你 只 需要 设置 指向 你 的 Hadoop 配置 目录 的 环境 变量 ， 然 
后 使 用 spark-submit 向 一 个 特殊 的 主 节点 URL 提交 作业 即 可 。 








第 一 步 是 找到 你 的 Hadoop 的 配置 目录 ， 并 把 它 设 为 环境 变量 HAD00P_CONF_DIR。 这 个 目录 
包含 yarn-site.xml 和 其 他 配置 文件 ， 如 果 你 把 Hadoop 装 到 HADOOP_HOME 中 ， 那么 这 
个 目录 通常 位 于 HADOOP_HOME/conf 中 ， 否 则 可 能 位 于 系统 目录 /etc/hadoop/conf 中 。 然 
后 用 如 下 方式 提交 你 的 应 用 : 





export HADOOP_CONF_DIR="..." 
spark-submit --master yarn yourapp 


和 独立 集群 管理 器 一 样 ， 有 两 种 将 应 用 连接 到 集群 的 模式 : 客户 端 模式 以 及 集群 模式 。 在 
客户 端 模式 下 应 用 的 驱动 器 程序 运行 在 提交 应 用 的 机 器 上 (比如 你 的 笔记 本 电脑 )， 而 在 
集群 模式 下 ， 了 驱动 器 程序 也 运行 在 一 个 YARN 容器 内 部 。 你 可 以 通过 spark-submit 的 
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--deploy-mode 参数 设置 不 同 的 模式 。? 


Spark 的 交互 式 shell 以 及 pyspark 也 都 可 以 运行 在 YARN 上 。 只 要 设置 好 HADOOP_CONF_ 
DIR 并 对 这 些 应 用 使 用 --master yarn 参数 即 可 。 注 意 ， 由 于 这 些 应 用 需要 从 用 户 处 获取 输 
入 ， 所 以 只 能 运行 于 客户 端 模式 下 。 








配置 资源 用 量 
当 在 YARN 上 运行 时 ， 根 据 你 在 spark-submit 或 spark-shell 等 脚本 的 --num-executors 
标记 中 设置 的 值 ，Spark 应 用 会 使 用 固定 数量 的 执行 器 节点 。 默 认 情 况 下 ， 这 个 值 仅 为 2， 
所 以 你 可 能 需要 提高 它 。 你 也 可 以 设置 通过 - -executor-memory 设置 每 个 执行 器 的 内 存 用 
量 ， 通 过 - -executor-cores 设置 每 个 执行 器 进程 从 YARN 中 占用 的 核心 数目 。 对 于 给 定 
的 硬件 资源 ，Spark 通常 在 用 量 较 大 而 总 数 较 少 的 执行 器 组 合 (使 用 多 核 与 更 多 内 存 ) 上 
表现 得 更 好 ， 因 为 这 样 Spark 可 以 优化 各 执行 器 进程 间 的 通信 。 然 而 ， 需 要 注意 的 是 ， 一 
些 集群 限制 了 每 个 执行 器 进程 的 最 大 内 存 (默认 为 8 GB)， 不 让 你 使 用 更 大 的 执行 器 进程 。 


出 于 资源 管理 的 目的 ， 某 些 YARN 集群 被 设置 为 将 应 用 调度 到 多 个 队列 中 。 使 用 - -queue 
选项 来 选择 你 的 队列 的 名 字 。 


要 了 解 关 于 YARN 的 更 多 配置 选项 的 相关 信息 ， 可 以 查阅 Spark 官方 文档 (http://spark. 
apache.org/docs/latestsubmitting-applications.html) 。 















































7.6.3 Apache Mesos 


Apache Mesos 是 一 个 通用 集群 管理 器 ， 既 可 以 运行 分 析 型 工作 负载 又 可 以 运行 长 期 运行 的 
服务 (比如 网 页 服务 或 者 键 值 对 存储 )。 要 在 Mesos 上 使 用 Spark， 需 要 把 一 个 mesos// 的 
URI 传 给 spark-submit: 








spark-submit --master mesos://masternode:5050 yourapp 





在 运行 多 个 主 节点 时 ， 你 可 以 使 用 ZooKeeper 来 为 Mesos 集群 选 出 一 个 主 节 点 。 在 这 种 
情况 下 ， 应 该 使 用 mesos://zk:// 的 URI 来 指向 一 个 ZooKeeper 节点 列表 。 比 如 ， 你 有 三 个 
ZooKeeper 节点 (nodel、node2 和 node3) ， 并 且 ZooKeeper 分 别 运 行 在 三 台 机 器 的 2181 端 
口上 时 ， 你 应 该 使 用 如 下 URI: 


mesos://zk://node1:2181/mesos,node2:2181/mesos ,node3:2181/mesos 


1. Mesos 调 度 模式 
和 别 的 集群 管理 器 不 同 ，Mesos 提供 了 两 种 模式 来 在 一 个 集群 内 的 执行 器 进程 间 共 享 学 


























注 2: 此 处 为 原 书 错误 ， 自 Spark 1.0.0 起 连接 到 YARN 集群 有 两 种 模式 ， 分 别 使 用 yarn-client 和 yarn- 
cluster 两 种 参数 。 请 参阅 Spark 官方 文档 。 一 一 译 者 注 
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源 。 在 “ 细 粒 度 ” 模 式 (默认 ) 中 ， 执 行 器 进程 占用 的 CPU 核心 数 会 在 它们 执行 任务 时 
动态 变化 ， 因 此 一 台 运 行 了 多 个 执行 器 进程 的 机 器 可 以 动态 共享 CPU 资源 。 而 在 “ 粗 粒 
度 ” 模 式 中 ，Spark 提前 为 每 个 执行 器 进程 分 配 固定 数量 的 CPU 数目 ， 并 且 在 应 用 结束 前 
绝 不 释放 这 些 资源 ， 哪 怕 执 行 器 进程 当前 不 在 运行 任务 。 你 可 以 通过 向 spark-submit 传递 
--Conf spark.mesos.coarse=true 来 打开 粗 粒 度 模 式 。 


当 多 用 户 共享 的 集群 运行 shell 这 样 的 交互 式 的 工作 负载 时 ， 由 于 应 用 会 在 它们 不 工作 时 降 
低 它 们 所 占用 的 核心 数 ， 以 允许 别 的 用 户 程序 使 用 集群 ， 所 以 这 种 情况 下 细 粒 度 模 式 显 得 
非常 合适 。 然 而 ， 在 细 粒 度 模 式 下 调度 任务 会 带 来 更 多 的 延迟 〈 这 样 的 话 ， 一 些 像 Spark 
Streaming 这 样 需要 低 延 迟 的 应 用 就 会 表现 很 差 ) ， 应 用 需要 在 用 户 输入 新 的 命令 时 ， 为 重 
新 分 配 CPU 核心 等 待 一 段 时 间 。 不 过 值得 一 提 的 是 ， 你 可 以 在 一 个 Mesos 集群 中 使 用 混 
合 的 调度 模式 (比如 将 一 部 分 Spark 应 用 的 spark.mesos.coarse 设置 为 true， 而 另 一 部 分 
不 这 么 设置 ) 。 


2. 客户 端 和 集群 模式 

就 Spark 1.2 而 言 ， 在 Mesos 上 Spark 只 支持 以 客户 端的 部 署 模式 运行 应 用 。 也 就 是 说 ， 驱 
动 器 程序 必须 运行 在 提交 应 用 的 那 台 机 器 上 。 如 果 你 还 是 希望 在 Mesos 集群 中 运行 你 的 驱 
动 器 节点 ， 那 么 Aurora (http://aurora.apache.org/) 或 Chronos (http://airbnb.io/chronos) 这 
样 的 框架 可 以 让 你 将 任意 脚本 提交 到 Mesos 上 执行 ， 并 监控 它们 的 运行 。 你 可 以 使 用 这 类 
框架 中 的 一 种 来 启动 应 用 的 驱动 器 程序 。 






























































3. 配置 资源 用 量 

你 可 以 通过 spark-submit 的 两 个 参数 - -executor-memory 和 - -totaL-executor-cores 来 控 
制 运行 在 Mesos 上 的 资源 用 量 ， 前 者 用 来 设置 每 个 执行 器 进程 的 内 存 ， 后 者 则 用 来 设置 应 
用 占用 的 核心 数 〈 所 有 执行 器 节点 占用 的 总 数 ) 的 最 大 值 。 默 认 情 况 下 ，Spark 会 使 用 尽 
可 能 多 的 核心 启动 各 个 执行 器 节点 ， 来 将 应 用 合并 到 尽量 少 的 执行 器 实例 中 ， 并 为 应 用 分 
配 所 需要 的 核心 数 。 如 果 你 不 设置 --total-executor-cores 参数 ，Mesos 会 尝试 使 用 集群 
中 所 有 可 用 的 核心 。 


























7.6.4 _ Amazon EC2 

Spark 自 带 一 个 可 以 在 Amazon EC2 上 启动 集群 的 脚本 。 这 个 脚本 会 启动 一 些 节点 ， 并 且 
在 它们 上 面 安 装 独立 集群 管理 器 。 这 样 一 旦 集群 启动 起 来 ， 你 就 可 以 根据 前 面 讲 到 的 独立 
模式 使 用 方法 来 使 用 这 个 集群 。 除 此 以 外 ，Ec2 脚本 还 会 安装 好 其 他 相关 的 服务 ， 比 如 
HDFS、Tachyon 还 有 用 来 监控 集群 的 Ganglia。 



































Spark 的 EC2 脚本 叫 作 spark-ec2， 位 于 Spark 安装 目录 下 的 ec2 文件 夹 中 。 它 需要 Python 
2.6 或 更 高 版 本 的 运行 环境 。 你 可 以 在 下 载 Spark 后 直接 运行 EC2 脚本 而 无 需 预先 编译 
Spark。 
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EC2 脚本 可 以 管理 多 个 已 命名 的 集群 (cluster) ， 并 且 使 用 EC2 安全 组 来 区 分 它们 。 对 于 
每 个 集群 ， 脚 本 都 会 为 主 节 点 创建 一 个 叫 作 clustername-master 的 安全 组 ， 而 为 工作 节点 
创建 一 个 叫 作 clustername-slaves 的 安全 组 。 


1. 启动 集群 
要 启动 一 个 集群 ， 你 应 该 先 创建 一 个 Amazon 网 络 服务 (AWS) 账号 ， 并 且 获 取 访 问 键 
ID 和 访问 键 密码 ， 然 后 把 它们 设 在 环境 变量 

















export AWS_ACCESS_KEY_ID="..." 
export AWS_SECRET_ACCESS_KEY="..." 

















然后 再 创建 出 EC2 的 SSH 密 钥 对 ， 然 后 下 载 私 钥 文件 (通常 叫 作 keypair.pem)， 这 样 你 就 
可 以 SSH 到 你 的 机 器 上 。 








人 提供 你 的 密 钥 对 的 名 字 、 私 钥 文件 和 集群 的 
名 字 。 默 认 情 况 下 ， 这 条 命令 会 使 用 mn1.xLarge 类 型 的 EC2 实例 ， 启 动 一 个 有 一 个 主 节 点 
和 一 个 工作 节点 的 集群 








cd /path/to/spark/ec2 
./spark-ec2 -k mykeypair -i mykeypair.pem Launch mycLuste 





你 也 可 以 使 用 spark-ec2 的 参数 选项 配置 实例 的 类 型 、 工 作 节 点 个 数 、EC2 地 区 ， 以 及 其 
他 一 些 要 素 。 例 如 : 


# 启动 包含 5 个 m3.xlarge 类 型 的 工作 市 点 的 集群 


./spark-ec2 -k mykeypair -i mykeypair.pem -s 5 -t m3.xlarge Launch mycluster 
要 获得 参数 选项 的 完整 列表 ， 运 行 spark-ec2 --help。 表 7-3 列 出 了 一 些 常用 的 选项 。 


表 7-3: spark-ec2 的 常见 选项 




















选项 含义 

-k KEYPAIR 要 使 用 的 keypair 的 名 字 

-i IDENTITY_FiLE 私 钥 文 件 ( 以 .pem 结尾 ) 

-s NUM_SLAVES 工作 节点 数量 

-t INSTANCE_TYPE 使 用 的 实例 类 型 

-Fr REGION 使 用 Amazon 实例 所 在 的 区 域 (例如 us-west-1) 
-z ZONE 使 用 的 地 带 (例如 us-west-1b) 





--spot-price=PRICE 在 给 定 的 出 价 使 用 spot 实例 (单位 为 美元 ) 
从 启动 脚本 开始 ， 通 常 需要 五 分 钟 左右 来 完成 启动 机 器 、 登 录 到 机 器 上 并 配置 Spark 的 全 
部 过 程 。 


2. 登录 集群 
你 可 以 使 用 存 有 私 钥 的 .pem 文件 通过 SSH 登录 到 集群 的 主 节 点 上 。 为 了 方便 ，spark-ec2 





提供 了 登录 命令 : 


./spark-ec2 -k mykeypair -i mykeypair.pem login mycluster 





还 有 ， 你 可 以 通过 运行 下 面 的 命令 获得 主 节 点 的 主机 名 : 











./spark-ec2 get-master mycluster 
然后 自行 使 用 ssh -i keypair.pem root@masternode 命令 SSH 到 主 节点 上 。 


进入 集群 以 后 ， 你 就 可 以 使 用 /root/spark 中 的 Spark 环境 来 运行 程序 了 。 这 是 一 个 独立 模 
式 的 集群 环境 ， 主 节点 URL 是 spark://masternode:7077。 当 你 使 用 spark-submit 启动 应 用 
时 ，Spark 会 自动 配置 为 将 应 用 提交 到 这 个 独立 集群 上 。 你 可 以 从 http:/masternode:8080 访 
问 集 群 的 网 页 用 户 界面 。 

















注意 ， 只 有 从 集群 中 的 机 器 上 启动 的 程序 可 以 使 用 spark-submit 把 作业 提交 上 去 ， 出 于 安 
全 目的 ， 防 火 墙 规则 会 阻止 外 部 主机 提交 作业 。 要 在 集群 上 运行 一 个 预先 打包 的 应 用 ， 需 
要 先 把 程序 包 通过 SCP 复制 到 集群 上 : 











scp -i mykeypair.pem app.jar root@masternode:~ 


3. 销毁 集群 
要 销毁 spark-ec2 所 启动 的 集群 ， 运 行 : 


./spark-ec2 destroy mycluster 


这 条 命令 会 终止 集群 中 的 所 有 的 实例 (包括 mycluster-naster 和 mycluster-slaves 两 个 安 
全 组 中 的 所 有 实例 )。 


4. 暂停 和 重启 集群 

除了 将 集群 彻底 销毁 ，spark-ec2 还 可 以 让 你 中 止 运行 集群 的 Amazon 实例 ， 并 且 可 以 让 你 
稍 后 重启 这 些 实例 。 停 止 这 些 实例 会 将 它们 关机 ， 并 丢失 “临时 ” 盘 上 的 所 有 数据 。“ 临 
时 ” 盘 上 还 配 有 一 个 给 spark-ec2 使 用 的 HDFS 环境 (参见 下 一 节 )。 不 过 ， 中 止 的 实例 会 
保留 root 目录 下 的 所 有 数据 (例如 你 上 传 到 那里 的 所 有 文件 )， 这 样 你 就 可 以 快速 恢复 自 
己 的 工作 。 











要 中 止 一 个 集群 ,运行 : 
./spark-ec2 stop mycluster 
然后 ， 过 一 会 儿 ， 再 次 启动 集群 : 


./spark-ec2 -k mykeypair -i mykeypair.pem start mycluster 
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Spark EC2 的 脚本 并 没有 提供 调整 集群 大 小 的 命令 ， 但 你 可 以 通过 增 减 
mycluster-slaves 安全 组 中 的 机 器 来 实现 对 集群 大 小 的 控制 。 要 增加 机 器 ， 
首先 应 当中 止 集群 ， 然 后 使 用 AWS 管理 控制 台 ， 右 击 一 台 工 作 节 点 并 选择 
“Launch more like this (启动 更 多 像 这 个 实例 一 样 的 实例 )”。 这 样 我 们 就 可 
以 在 同一 个 安全 组 中 创建 出 更 多 实例 。 然 后 使 用 spark-ec2 start 启动 集群 。 
要 移 除 机 器 ， 只 需 在 AWS 控制 台 上 终止 这 一 实例 即 可 (不 过 要 小 心 ， 这 也 
会 破坏 集群 中 HDFS 上 的 数据 ) 。 














5. 集群 存储 
Spark EC2 集群 已 经 配置 好 了 两 套 Hadoop 文件 系统 以 供 存储 临时 数据 。 这 样 我 们 可 以 很 方 
便 地 将 数据 集 存 储 在 访问 速度 比 Amazon S3 更 快 的 媒介 中 。 这 两 套 文件 系统 详 述 如 下 。 


。“ 临 时 ”HDFS， 使 用 节点 上 的 临时 盘 。 大 多 数 类 型 的 Amazon 实例 都 在 “临时 ” 盘 上 

带 有 大 容量 的 本 地 空间 ， 这 些 空间 会 在 实例 关机 时 消失 。“ 临 时 ”HDFS 使 用 这 种 空间 ， 
可 以 提供 相当 大 的 临时 存储 空间 。 不 过 它 会 在 你 关闭 并 重启 EC2 集群 时 丢失 所 有 数据 。 
这 种 文件 系统 安装 在 节点 的 /root/ephemeral-hdfs 目录 中 ， 你 可 以 使 用 bin/hdfs 命令 来 
访问 并 列 出 文件 。 你 也 可 以 访问 这 种 HDFS 的 网 页 用 户 界 面 ， 其 URL 地 址 位 于 http:// 
masternode:50070。 

。 “永久 ”HDFS， 使 用 节点 的 root 分 卷 。 这 种 HDFS 在 集群 重启 时 仍然 保留 数据 ， 不 过 
一 般 空间 较 小 ， 访 问 起 来 也 比 临时 的 那 种 慢 。 这 种 HDFS 适合 存放 你 不 想 多 次 下 载 的 
中 等 大 小 的 数据 集中 。 它 安装 于 /root/persistent-hdfs 目录 ， 网 页 用 户 界面 地 址 是 http:// 
masternode:60070。 


























除了 这 些 以 外 ， 你 最 有 可 能 访问 的 就 是 Amazon S3 中 的 数据 了 。 你 可 以 在 Spark 中 使 用 
s3n:// 的 URI 结构 来 访问 其 中 的 数据 ， 具 体 细节 请 参考 5.3.2 市 。 


7.7 选择 合适 的 集群 管理 器 


Spark 所 支持 的 各 种 集群 管理 器 为 我 们 提供 了 部 署 应 用 的 多 种 选择 。 如 有 果 你 需要 从 零 开始 
部 署 ， 正 在 权衡 各 种 集群 管理 器 ， 我 们 推荐 如 下 一 些 准则 。 


。 如 果 是 从 零 开始 ， 可 以 先 选 择 独 立 集群 管理 器 。 独 立 模式 安装 起 来 最 简单 ， 而 且 如 果 你 
只 是 使 用 Spark 的 话 ， 独 立 集群 管理 器 提供 与 其 他 集群 管理 器 完全 一 样 的 全 部 功能 。 

。 如 果 你 要 在 使 用 Spark 的 同时 使 用 其 他 应 用 ， 或 者 是 要 用 到 更 丰富 的 资源 调度 功能 
(例如 队列 )， 那 么 YARN 和 Mesos 都 能 满足 你 的 需求 。 而 在 这 两 者 中 ， 对 于 大 多 数 
Hadoop 发 行 版 来 说 ， 一 般 YARN 已 经 预 装 好 了 。 

。 Mesos 相对 于 YARN 和 独立 模式 的 一 大 优点 在 于 甚 细 粒 度 共 享 的 选项 ， 该 选项 可 以 将 
类 似 Spark shell 这 样 的 交互 式 应 用 中 的 不 同 命令 分 配 到 不 同 的 CPU 上 。 因 此 这 对 于 多 
用 户 同时 运行 交互 式 shell 的 用 例 更 有 用 处 。 
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。 在 任何 时 候 ， 最 好 把 Spark 运行 在 运行 HDFS 的 节点 上 ， 这 样 能 快速 访问 存储 。 你 可 以 
自行 在 同样 的 节点 上 安装 Mesos 或 独立 集群 管理 器 。 如 果 使 用 YARN 的 话 ， 大 多 数 发 
行 版 已 经 把 YARN 和 HDFS 安装 在 了 一 起 。 


最 后 ， 请 牢记 集群 管理 器 仍 处 于 快速 发 展 中 。 在 这 本 书面 世 之 际 ，Spark 当前 支持 的 这 些 
集群 管理 器 可 能 已 经 有 了 一 些 针 对 Spark 的 新 特性 ， 而 Spark 也 有 可 能 已 经 增加 了 对 新 的 
集群 管理 器 的 支持 。 本 章 中 描述 的 提交 应 用 的 方法 不 会 改变 ， 不 过 你 依然 应 当 查 阅 所 使 用 
Spark 版 本 的 官方 文档 (http://spark.apache.org/docs/latest/) 来 了 解 最 新 的 选项 。 


















































7.8 总 结 


本 章 描述 了 Spark 应 用 的 运行 时 架构 ， 它 是 由 一 个 驱动 器 节点 和 一 系列 分 布 式 执行 器 节点 
组 成 的 。 之 后 本 章 讲 了 如 何 构建 、 打 包 Spark 应 用 并 向 集群 提交 执行 。 最 后 ， 我 们 总 结 了 
常见 的 Spark 部 署 环境 ， 包 括 Spark 自 带 的 集群 管理 器 ， 还 有 在 YARN 或 Mesos 等 第 三 方 
集群 管理 器 上 运行 Spark， 以 及 在 Amazon EC2 云 服 务 上 运行 。 下 一 章 会 深入 介绍 更 多 操 
作 细 节 ， 主 要 集中 于 调 优 和 调试 生产 环境 中 的 Spark 应 用 。 
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第 8 和 章 


Spark 调 优 与 调试 





本 章 介绍 如 何 配置 Spark 应 用 ， 并 粗略 介绍 如 何 调 优 和 调试 生产 环境 中 的 Spark 工作 负载 。 
尽管 Spark 的 默认 设置 在 很 多 情况 下 无 需 修改 就 能 直接 使 用 ， 但 有 时 我 们 也 确实 需要 修改 
某 些 选项 。 本 章 会 总 结 Spark 的 配置 机 制 ， 着 重 讨论 用 户 可 能 需要 稍 作 调 整 的 一 些 选 项 。 
Spark 的 配置 对 于 应 用 的 性 能 调 优 是 很 有 意义 的 。 本 章 的 第 二 部 分 则 涵盖 了 理解 Spark 应 
用 性 能 表现 的 必 备 基础 知识 ， 以 及 设置 相关 配置 项 、 编 写 高 性 能 应 用 的 设计 模式 等 。 我 们 

会 讨论 Spark 的 用 户 界面 、 执 行 的 组 成 部 分 、 日 志 机 制 等 相关 内 容 。 这 些 信 息 在 进行 性 
能 调 优 和 问题 追踪 时 都 是 非常 有 用 的 。 











8.1 使 用 SparkConf 配 置 Spark 


对 Spark 进行 性 能 调 优 ， 通 常 就 是 修改 Spark 应 用 的 运行 时 配置 选项 。Spark 中 最 主要 的 配 
置 机 制 是 通过 SparkConf 类 对 Spark 进行 配置 。 当 创建 出 一 个 SparkContext 时 ， 就 需要 创 
建 出 一 个 SparkConf 的 实例 ， 如 例 8-1 至 例 8-3 所 示 。 





例 8-1: 在 Python 中 使 用 SparkConf 创建 一 个 应 用 


# 创建 一 个 conf 对 象 

conf = new SparkConf() 

conf.set("spark.app.name", "My Spark App") 
conf.set("spark.master", "local[4]") 
conf.set("spark.ui.port", "36000") # 重 载 默认 端口 配置 





# 使 用 这 个 配置 对 象 创建 一 个 SparkContext 
sc = SparkContext(conf) 





123 








例 8-2: 在 Scala 中 使 用 SparkConf 创建 一 个 应 用 


// 创建 一 个 conf 对 象 

val conf = new SparkConf() 

conf.set("spark.app.name", "My Spark App") 
conf.set("spark.master", "local[4]") 
conf.set("spark.ut.port"，"36000") // 重 载 默认 端口 配置 











// 使 用 这 个 配置 对 象 创建 一 个 SparkContext 


val sc = new SparkContext(conf) 





例 8-3: 在 Java 中 使 用 SparkConf 创建 一 个 应 用 


// 创建 一 个 conf 对 象 

SparkConf conf = new SparkConf(); 
conf.set("spark.app.name", "My Spark App"); 
conf.set("spark.master", "local[4]"); 
conf.set("spark.ut.port"，"36000"); // 重 载 默认 端口 配置 





// 使 用 这 个 配置 对 象 创建 一 个 SparkContext 


JavaSparkContext sc = JavaSparkContext(conf); 





SparkConf 类 其 实 很 简单 :SparkConf 实例 包含 用 户 要 重 载 的 配置 选项 的 键 值 对 。Spark 中 
的 每 个 配置 选项 都 是 基于 字符 串 形 式 的 键 值 对 。 要 使 用 创建 出 来 的 SparkConf 对 象 ， 可 以 
调用 set() 方法 来 添加 配置 项 的 设置 ， 然 后 把 这 个 对 象 传 给 SparkContext 的 构造 方法 。 除 
了 set() 之 外 ，SparkConf 类 也 包含 了 一 小 部 分 工具 方法 ， 可 以 很 方便 地 设置 部 分 常用 参 
数 。 例 如 ， 在 前 面 的 三 个 例子 中 ， 你 也 可 以 调用 setAppName() 和 setMaster() 来 分 别 设置 
spark.app.name 和 spark.master 的 配置 值 。 























在 这 儿 个 例子 中 ，SparkConf 中 的 值 都 是 在 应 用 代码 中 设置 的 。 在 很 多 情况 下 ， 动 态 地 为 
给 定 应 用 设置 配置 选项 会 方便 得 多 。Spark 允许 通过 spark-submit 工具 动态 设置 配置 项 。 
当 应 用 被 spark-submit 脚本 启动 时 ， 脚 本 会 把 这 些 配置 项 设置 到 运行 环境 中 。 当 一 个 新 
的 SparkConf 被 创建 出 来 时 ， 这 些 环境 变量 会 被 检测 出 来 并 且 自 动 配 好 。 这 样 ， 在 使 用 
spark-submit 上 时， 用 户 应 用 中 只 要 创建 一 个 “ 空 ”的 SparkConf ， 并 直接 传 给 SparkContext 
的 构造 方法 就 行 了 。 


spark-submit 工具 为 常用 的 Spark 配置 项 参数 提供 了 专用 的 标记 ， 还 有 一 个 通用 标记 
--conf 来 接收 任意 Spark 配置 项 的 值 ， 如 例 8-4 所 示 。 


例 8-4: 在 运行 时 使 用 标记 设置 配置 项 的 值 
$ bin/spark-submit \ 
--CLass com.example.MyApp \ 
--master local[4] \ 
--name "My Spark App" \ 
--Conf spark.ui.port=36000 \ 
myApp. jar 


spark-submit 也 支持 从 文件 中 读 取 配置 项 的 值 。 这 对 于 设置 一 些 与 环境 相关 的 配置 项 比 
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较 有 用 ， 方 便 不 同 用 户 共享 这 些 配置 (比如 默认 的 Spark 主 节点 )。 默 认 情况 下 ，spark- 


submit 脚本 会 在 Spark 安装 


目录 中 找到 conf/spark-defaults.conf 文件 ， 尝 试 读 取 该 文件 中 以 


空格 隔 开 的 键 值 对 数据 。 你 也 可 以 通过 spark-submit 的 --properties-File 标 记 ， 自 定义 
该 文件 的 路 径 ， 如 例 8-5 所 示 。 


例 8-5: 运行 时 使 用 默认 文件 设置 配置 项 的 值 


$ bin/spark-submit \ 


--CLass com.example.MyApp \ 


--properties-file my 
myApp. jar 


-config.conf \ 


## Contents of my-config.conf ## 
spark.master local[4] 
spark.app.name "My Spark App" 


spark.ui.port 36000 





有 时 ， 同 一 个 配置 项 可 能 在 





一 且 传 给 了 SparkContext 的 构造 方法 ， 应 用 所 绑 定 的 SparkConf 就 不 可 变 了 。 
这 意味 着 所 有 的 配置 项 都 必须 在 SparkContext 实例 化 出 来 之 前 定 下 来 。 








多 个 地 方 被 设置 了 。 例 如 ， 某 用 户 可 能 在 程序 代码 中 直接 调用 


了 setAppName() 方法 ， 同 时 也 通过 spark-submit 的 --name 标记 设置 了 这 个 值 。 针 对 这 种 
情况 ，Spark 有 特定 的 优先 级 顺序 来 选择 实际 配置 。 优 先 级 最 高 的 是 在 用 户 代码 中 显 式 调 














用 set() 方法 设置 的 选项 。 其 次 是 通过 spark-submit 传递 的 参数 ， 再 次 是 写 在 配置 文件 中 


的 值 ， 最 后 是 系统 的 默认 值 
户 界面 中 查看 ， 本 章 稍 后 会 








。 如 果 你 想 获 得 应 用 中 实际 生效 的 配置 ， 可 以 在 应 用 的 网 页 用 
作 进 一 步 讨 论 。 














表 7-2 列 出 了 一 些 常 用 的 配置 项 。 表 8-1 则 列 出 了 其 他 几 个 比较 值得 关注 的 配置 项 。 如 
果 想 要 得 到 完整 的 配置 项 列表 ， 请 参考 Spark 文档 (http://spark.apache.org/docs/latest/ 


configuration.html ) 。 








表 8-1: 常用 的 Spark 配 置 项 的 值 
选项 默认 值 描述 





Spark.executor .memory 512m 为 每 个 执行 器 进程 分 配 的 内 存 ， 格 式 与 JVM 内 存 字符 串 


(--executor -memory) 





格式 一 样 (例如 512m，2g)。 关 于 本 配置 项 的 更 多 细节 ， 
请 参阅 8.4.4 节 

















spark.executor.cores (-- ”1 (无 ) 限制 应 用 使 用 的 核心 个 数 的 配置 项 。 在 YARN 模式 下 ， 


executor -cores) 
spark.cores.max 


(--total-executor-cores) 





spark.executor.cores 会 为 每 个 任务 分 配 指定 数目 的 核 
心 。 在 独立 模式 和 Mesos 模式 下 ，spark.core.max 设置 
了 所 有 执行 器 进程 使 用 的 核心 总 数 的 上 限 。 参 阅 8.4.4 市 
了 解 更 多 细 市 
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( 续 ) 



































选项 默认 值 描述 

spark. speculation false 设 为 true 时 开启 任务 预测 执行 机 制 。 当 出 现 比 较 慢 的 任 
务 时 ， 这 种 机 制 会 在 另外 的 节点 上 也 尝试 执行 该 任务 的 
一 个 副本 。 打 开 此 选项 会 帮助 减少 大 规模 集群 中 个 别 较 
慢 的 任务 带 来 的 影响 

spark. storage.blockMan 45000 内 部 用 来 通过 超时 机 制 追踪 执行 器 进程 是 否 存活 的 国 值 。 

agerTimeoutIntervaLMs 对 于 会 引发 长 时 间 垃 圾 回收 (GC) 暂停 的 作业 ， 需 要 
把 这 个 值 调 到 100 秒 〈 对 应 值 为 100000) 以 上 来 防止 失 
败 。 在 Spark 将 来 的 版 本 中 ， 这 个 配置 项 可 能 会 被 一 个 


spark.executor.extra]ava  ( 空 ) 
Options 
spark.executor.extra 
CLassPath 

spark.executor .extra 
LibraryPath 


spark.serializer 


serializer. 

JavaSerializer 
spark. [X] .port (任意 值 ) 
spark.eventLog.enabled false 


spark.eventLog.dir file:///tmp/ 


spark-events 


org.apache.spark. 


统一 的 超时 设置 所 取代 ， 所 以 

















请 六 





个 参数 





这 三 


主意 检索 最 新 文档 
来 自 定义 如 何 启动 执行 器 进程 的 JVM， 





分 别 用 来 添加 额外 的 Java 参数、classpath 以 及 程序 





XX:+PrintG 


库 路 径 。 使 用 字符 
executor .extraJavaOptions="- 


请 注意 ， 





CTimeStamps" ) 。 


品 
吾 





来 设置 这 些 参 数 (例如 spark. 
XX:+PrintGCDetails- 


有 然 这 些 参 数 可 以 让 


你 自行 添加 执行 器 程序 的 classpath， 我 们 还 是 推荐 使 用 
spark-submit 的 --jars 标记 来 添加 依赖 ， 而 不 是 使 用 这 


几 个 选项 





指定 用 来 进行 序列 化 的 类 库 ， 包 括 通过 网 络 传输 数据 或 





缓存 数据 





blockManag 


设 为 true 


村 的 序列 化 。 默 认 
以 被 序列 化 的 Java 对 象 都 适 
推荐 在 追求 速度 时 使 用 org 
KryoSerializer 并 且 对 Kryo 进行 适当 
配置 为 任何 org.apache.spark. 
用 来 设置 运行 Spark 应 
对 于 运行 在 可 靠 网 络 上 
括 driver、 








的 Java 


用 ,但 是 速度 很 慢 。 


.apache.spark.seria 











Serializer 的 子 类 








月 时 用 














er， 以 及 executor 























作业 就 可 以 通过 历史 服务 器 ( 


历史 服务 器 的 更 多 信 





自 


‘ 心 \ » 


请 参 











的 集群 是 很 有 用 


fileserver、 broadcast、replClassServer、 


村 ， 开 局 事件 日 志 机 制 ， 这 样 








his 
考官 方 文档 











指 开启 事 们 








F 日 志 机 制 时 

















个 




















比如 HDFS 








序列 化 对 于 任何 可 
我 人 


lizer. 


] 


的 调 优 。 该 项 可 以 
到 的 各 个 端口 。 这 些 参数 
的 。 有 效 的 X 包 
已 完成 的 Spark 
ory server) 查看 。 关 于 


， 事 件 日 志文 件 的 存储 位 置 。 这 
直 指 向 的 路 径 需 要 设置 到 一 个 全 局 可 见 的 文件 系统 中 


几乎 所 有 的 Spark 配置 都 发 生 在 SparkConf 的 创建 过 程 中 ， 但 有 一 个 重要 的 选项 是 个 例外 。 
你 需要 在 conf/spark-env.sh 中 将 环境 变量 SPARK_LOCAL_DIRS 设置 为 用 逗号 隔 开 的 存储 位 置 
列表 ， 来 指定 Spark 用 来 混 洗 数据 的 本 地 存储 路 径 。 这 需要 在 独立 模式 和 Mesos 模式 下 设 


置 。8.4.4 节 中 会 更 详细 地 介绍 SPARK_LOCAL_DIRS 的 相关 知识 点 。 





的 Spark 配置 项 不 一 样 ， 是 因 




















这 个 配置 项 之 所 以 和 其 他 
为 它 的 值 在 不 同 的 物理 主机 上 可 能 会 有 区 别 。 





8.2 ”Spark 执行 的 组 成 部 分 : 作业 、 任 务 和 步骤 


要 对 Spark 进行 调 优 和 调试 ， 首 先 要 进一步 了 解 系 统 的 内 部 设计 。 在 前 面 的 章节 中 ， 你 已 
经 看 到 了 RDD 的 逻辑 表示 以 及 RDD 的 分 区 。 在 执行 时 ，Spark 会 把 多 个 操作 合并 为 一 组 
任务 ， 把 RDD 的 逻辑 表示 翻译 为 物理 执行 计划 。 理 解 Spark 执行 的 方方面面 不 在 本 书 要 
讨论 的 范围 内 ， 不 过 理解 一 些 执行 过 程 中 涉及 的 流程 以 及 相关 的 术语 对 于 调 优 和 调试 是 非 
常 有 帮助 的 。 






















































































下 面 通过 一 个 示例 应 用 来 展示 Spark 执行 的 各 个 阶段 ， 以 了 解 用 户 代码 如 何 被 编译 为 下 层 
的 执行 计划 。 我 们 要 使 用 的 是 一 个 使 用 Spark shell 实现 的 简单 的 日 志 分 析 应 用 。 输 入 数据 
是 一 个 由 不 同 严重 等 级 的 日 志 消息 和 一 些 分 散 的 空 行 组 成 的 文本 文件 ， 如 例 8-6 所 示 。 


例 8-6: 用 作 示 例 的 源 文 件 input.txt 
## input.txt ## 
INFO This is a message with content 
INFO This is some other content 
( 空 行 ) 
INFO Here are more messages 
WARN This is a warning 
( 空 行 ) 
ERROR Something bad happened 
WARN More details on the bad thing 
INFO back to normal messages 





我 们 希望 在 Spark shell 中 打开 该 文件 ， 计 算 其 中 各 级 别 的 日 志 消 息 的 条 数 。 首 先 我 们 来 创 
建 儿 个 可 以 帮助 我 们 回答 该 问题 的 RDD， 如 例 8-7 所 示 。 














例 8-7: 在 Scala 版 本 的 Spark shell 中 处 理 文本 数据 
// 读 取 输 入 文件 


scala> val input = sc.textFile("input.txt") 
// 切 分 为 单词 并 且 删 掉 空 行 
scala> val tokenized = input. 

| map(line => line.split(" ")). 

| filter(words => words.size > 0) 
// 提取 出 每 行 的 第 一 个 单词 (日 志 等 级 ) 并 进行 计数 
scala> val counts = tokenized. 

| map(words = > (words(0), 1)). 

| reduceByKey{ (a,b) => a + b } 




















这 一 系列 命令 生成 了 一 个 叫 作 counts 的 RDD， 其 中 包含 各 级 别 日 志 对 应 的 条 目 数 。 在 
shell 中 执行 完 这 些 命令 之 后 ， 程 序 没 有 执行 任何 行动 操作 。 相 反 ， 程 序 定 义 了 一 个 RDD 
对 象 的 有 向 无 环 图 (DAG)， 我 们 可 以 在 稍 后 行动 操作 被 触发 时 用 它 来 进行 计算 。 每 个 
RDD 维护 了 其 指向 一 个 或 多 个 父 节 点 的 引用 ， 以 及 表示 其 与 父 节 点 之 间 关 系 的 信息 。 比 
如 ， 当 你 在 RDD 上 调用 val b = a.map() 时 ，b 这 个 RDD 就 存 下 了 对 其 父 市 点 a 的 一 个 
引用 。 这 些 引 用 使 得 RDD 可 以 追踪 到 其 所 有 的 祖先 节点 。 
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Spark 提供 了 topebugstring() 方法 来 查看 RDD 的 谱系 。 在 例 8-8 中 ， 我 们 会 看 到 在 前 面 
的 例子 中 创建 出 的 一 些 RDD。 














例 8-8: 在 Scala 中 使 用 toDebugstring() 查看 RDD 


scala> input.toDebugString 

res85: String = 

(2) input.text MappedRDD[292] at textFile at <console>:13 
| input.text HadoopRDD[291] at textFile at <console>:13 





scala> counts.toDebugString 
res84: String = 
(2) ShuffLedRDD[296] at reduceByKey at <console>:17 
+-(2) MappedRDD[295] at map at <console>:17 
| FilteredRDD[294] at filter at <console>:15 
| MappedRDD[293] at map at <console>:15 
| input.text MappedRDD[292] at textFile at <console>:13 
| input.text HadoopRDD[291] at textFile at <console>:13 





第 一 条 命令 输出 了 RDDinput 的 相关 信息 。 通 过 调用 sc.textFile() 创建 出 了 这 个 RDD。 从 
输出 的 谱系 中 ， 可 以 看 到 sc.textFile() 方法 所 创建 出 的 RDD 类 型 ， 找 到 关于 textFile() 
幕后 细节 的 一 些 蛛丝马迹 。 事 实 上 ， 该 方法 创建 出 了 一 个 HadoopRDD 对 象 ， 然 后 对 该 RDD 
执行 映射 操作 ， 最 终 得 到 了 返回 的 RDD。counts 的 谱系 图 则 更 加 复杂 一 些 ， 有 多 个 祖先 
RDD， 这 是 由 于 我 们 对 input 进行 了 其 他 操作 ， 包 括 额 外 的 上 映射、 筛选 以 及 归 约 。counts 
谱系 也 以 图 的 方式 展示 在 图 8-1 左 侧 。 


在 调用 行动 操作 之 前 ，RDD 都 只 是 存储 着 可 以 让 我 们 计算 出 具体 数据 的 描述 信息 。 要 触发 
实际 计算 ， 需 要 对 counts 调用 一 个 行动 操作 ， 比 如 使 用 collect() 将 数据 收集 到 驱动 器 程 
序 中 ， 如 例 8-9 所 示 。 






































例 8-9: 收集 RDD 
scala> counts.collect() 
res86: Array[(String, Int)] = Array((ERROR,1), (INFO,4), (WARN,2)) 


Spark 调度 器 会 创建 出 用 于 计算 行动 操作 的 RDD 物理 执行 计划 。 我 们 在 此 处 调用 RDD 的 
collect() 方法 ， 于 是 RDD 的 每 个 分 区 都 会 被 物化 出 来 并 发 送 到 驱动 器 程序 中 。Spark 调 
度 器 从 最 终 被 调用 行动 操作 的 RDD (在 本 例 中 是 counts) 出 发 ， 向 上 回溯 所 有 必须 计算 
的 RDD。 调 度 器 会 访问 RDD 的 父 节 点 、 父 节点 的 父 节 点 ， 以 此 类 推 ， 递 归 向 上 生成 计算 
所 有 必要 的 祖先 RDD 的 物理 计划 。 我 们 以 最 简单 的 情况 为 例 ， 调 度 器 为 有 向 图 中 的 每 个 
RDD 输出 计算 步骤 ， 步 又 中 包括 RDD 上 需要 应 用 于 每 个 分 区 的 任务 。 然 后 以 相反 的 顺序 
执行 这 些 步 又 ， 计 算得 出 最 终 所 求 的 RDD。 

下 面 来 看 看 更 复杂 的 情况 ， 此 时 RDD 图 与 执行 步骤 的 对 应 关系 并 不 一 定 是 一 一 对 应 的 ， 
比如 ， 当 调度 器 进行 流水 线 执 行 (pipelining)， 或 把 多 个 RDD 合并 到 一 个 步骤 中 时 。 当 
RDD 不 需要 混 洗 数据 就 可 以 从 父 节点 计算 出 来 时 ， 调 度 器 就 会 自动 进行 流水 线 执行 。 例 
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8-8 中 输出 的 谱系 图 使 用 不 同 缩 进 等 级 来 展示 RDD 是 否 会 在 物理 步骤 中 进行 流水 线 执行 。 








在 物理 执行 时 ， 执 行 计 划 输 出 的 缩 进 等 级 与 其 
步骤 中 进行 流水 线 执行 。 例 如 ， 当 计算 counts 














父 市 点 相同 的 RDD 会 与 其 父 节 点 在 同一 个 





时 ， 尽 管 有 很 多 级 父 RDD， 但 从 缩 进来 看 





总 共 只 有 两 级 。 这 表明 物理 执行 只 需要 两 个 步骤 。 由 于 执行 序列 中 有 几 个 连续 的 筛选 和 





映射 操作 ， 这 个 例子 中 才 出 现 了 流水 线 执行 。 
RDD 时 的 两 个 执行 步骤 。 


8-1 的 右 半 部 分 展示 了 计算 counts 这 个 





RDD 图 


HadoopRDD 


sc.textFile(...) 


MappedRDD 


.map(...) MappedRDD 


filter(...) FilteredRDD 


.reduceByKey(...) ShuffledRDD 








物理 计划 


HadoopRDD 
MappedRDD 
MappedRDD 


步骤 1 


FilteredRDD 
ShuffledRDD 步骤 2 











8-1: 将 RDD 转化 操作 串联 成 物理 执行 步 又 











如 果 访 问 应 用 的 网 页 用 户 界面 ， 你 会 发 现 coLLect() 操作 引发 了 两 个 步骤 。 如 果 你 在 自己 的 
机 器 上 运行 这 段 示例 代 码 ， 用 户 界 面 可 以 在 (http://localhost:4040) 上 找到 。 本 章 后 半 部 分 会 
更 详细 地 讨论 用 户 界面 的 细节 ， 现 在 你 只 需要 简单 看 看 程序 运行 期 间 执 行 了 哪些 步骤 。 


除了 流水 线 执行 的 优化 ， 当 一 个 RDD 已 经 缓存 在 集群 内 存 或 磁盘 上 时 ，Spark 的 内 部 调度 














器 也 会 自动 截 短 RDD 谱系 图 。 在 这 种 情况 下 ， 
的 RDD 进行 计算 。 还 有 一 种 截 短 RDD 谱系 图 

















Spark 会 “短路 ” 求 值 ， 直 接 基于 缓存 下 来 
的 情况 发 生 在 当 RDD 已 经 在 之 前 的 数据 混 


洗 中 作为 副产品 物化 出 来 时 ， 哪 怕 该 RDD 并 没有 被 显 式 调用 persist() 方法 。 这 种 内 部 优 
化 是 基于 Spark 数据 混 洗 操作 的 输出 均 被 写 入 磁盘 的 特性 ， 同 时 也 充分 利用 了 RDD 图 的 








某 些 部 分 会 被 多 次 计算 的 事实 。 


























下 面 来 看 看 物理 执行 中 缓存 的 作用 。 我 们 把 countsRDD 缓存 下 来 ， 观 察 之 后 的 行动 操作 
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是 怎样 被 截 短 的 〈 例 8-10)。 如 果 你 再 次 访问 用 户 界 面 ， 你 会 看 到 缓存 减少 了 后 来 执行 计 











算 时 所 需要 的 步 又。 多 次 调用 collect() 只 会 产生 一 个 步骤 来 完成 这 个 行动 操作 


例 8-10: 计算 一 个 已 经 缓存 过 的 RDD 
// 缓存 RDD 


scala> counts.cache() 

// 第 一 次 求 值 运行 仍然 需要 两 个 步骤 

scala> counts.collect() 

res87: Array[(String, Int)] = Array((ERROR,1), (INFO,4), (WARN,2), (##,1) 
((empty,2)) 

// 该 次 执行 只 有 一 个 步骤 

scala> counts.collect() 

res88: Array[(String, Int)] = Array((ERROR,1), (INFO,4), (WARN,2), (##,1) 
((empty,2)) 





o 


3? 


3? 


特定 的 行动 操作 所 生成 的 步骤 的 集合 被 称 为 一 个 作业 。 我 们 通过 类 似 count() 之 类 的 方法 


触发 行动 操作 ， 创 建 出 由 一 个 或 多 个 步骤 组 成 的 作业 。 





一 旦 步骤 图 确定 下 来 ， 任 务 就 会 被 创建 出 来 并 发 给 内 部 的 调度 器 。 该 调度 器 在 不 同 的 部 署 














模式 下 会 有 所 不 同 。 物 理 计 划 中 的 步骤 会 依赖 于 其 他 步骤 ， 如 RDD 谱系 图 所 显 





示 的 那样 。 


因此 ， 这 些 步骤 会 以 特定 的 顺序 执行 。 例 如 ， 一 个 输出 混 洗 后 的 数据 的 步骤 一 定 会 依赖 于 


进行 数据 混 洗 的 那个 步骤 。 











一 个 物理 步骤 会 启动 很 多 任务 ， 每 个 任务 都 是 在 不 同 的 数据 分 区 上 做 同样 的 事情 。 任 务 内 


部 的 流程 是 一 样 的 ， 如 下 所 述 。 




















(从 数据 存储 (如果 该 RDD 是 一 个 输入 RDD) 或 已 有 RDD (如 果 该 步骤 是 基于 已 经 组 


存 的 数据 ) 或 数据 混 洗 的 输出 中 获取 输入 数据 。 


(2) 执 行 必要 的 操作 来 计算 出 这 些 操 作 所 代表 的 RDD。 例 如 ， 对 输入 数据 执行 
map() 图 数 ， 或 者 进行 分 组 或 归 约 操作 。 


(3) 把 输出 写 到 一 个 数据 混 洗 文件 中 ， 写 入 外 部 存储 ， 或 者 是 发 回 驱 动 器 程序 
RDD 调用 的 是 类 似 count() 这 样 的 行动 操作 )。 


Spark 的 大 部 分 日 志 信 息 和 工具 都 是 以 步骤 、 任 务 或 数据 混 洗 为 单位 的 。 理 解 月 


























fiLter() 和 


(如 果 最 终 





户 代码 如 


何 编译 为 物理 执行 的 内 容 是 一 个 高 深 的 话题 ， 但 对 调 优 和 调试 应 用 有 非常 大 的 帮助 。 








ny 


归纳 一 下 ，Spark 执行 时 有 下 面 所 列 的 这 些 流程 。 





。 用 户 代 码 定 义 RDD 的 有 向 无 环 图 


RDD 上 的 操作 会 创建 出 新 的 RDD， 并 引用 它们 的 父 市 点 ， 这 样 就 创建 出 了 一 个 图 。 








。 行动 操作 把 有 向 无 环 图 强制 转译 为 执行 计划 





当 你 调用 RDD 的 一 个 行动 操作 时 ， 这 个 RDD 就 必须 被 计算 出 来 。 这 也 要 求 计算 出 i 








还 
NS 
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RDD 的 父 节 点 。Spark 调度 器 提交 一 个 作业 来 计算 所 有 必要 的 RDD。 这 个 作业 会 包含 
一 个 或 多 个 步骤 ， 每 个 步骤 其 实 也 就 是 一 波 并 行 执行 的 计算 任务 。 一 个 步骤 对 应 有 向 无 
环 图 中 的 一 个 或 多 个 RDD， 一 个 步骤 对 应 多 个 RDD 是 因为 发 生 了 流水 线 执 行 。 








。 任务 于 集群 中 调度 并 执行 
步骤 是 按 顺 序 处 理 的 ， 任 务 则 独立 地 启动 来 计算 出 RDD 的 一 部 分 。 一 旦 作业 的 最 后 一 
个 步骤 结束 ， 一 个 行动 操作 也 就 执行 完毕 了 。 
在 一 个 给 定 的 Spark 应 用 中 ， 由 于 需要 创建 一 系列 新 的 RDD， 
多 次 。 


8.3 ”查找 信息 


Spark 在 应 用 执行 时 记录 详细 的 进度 信息 和 性 能 指标 。 这 些 内 容 可 以 在 两 个 地 方 找 到 : 
Spark 的 网 页 用 户 界面 以 及 驱动 器 进程 和 执行 器 进程 生成 的 日 志文 件 中 。 
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8.3.1 Spark 网 页 用 户 界 面 


Spark 内 建 的 网 页 用 户 界 面 是 了 解 Spark 应 用 的 行为 和 性 能 表现 的 第 一 站 。 默 认 情 况 下 ， 它 
在 驱动 器 程序 所 在 机 器 的 4040 端口 上 。 不 过 对 于 YARN 集群 模式 来 说 ， 应 用 的 驱动 器 程 
序 会 运行 在 集群 内 部 ， 你 应 该 通过 YARN 的 资源 管理 器 来 访问 用 户 界 面 。YARN 的 资源 
管理 器 会 把 请 求 直 接 转 发 给 驱动 器 程序 。 


Spark 用 户 界面 包括 儿 个 不 同 的 页 面 ， 具体 的 格式 在 不 同 的 Spark 版 本 间 也 存在 区 别 。 以 
Spark 1.2 为 例 ， 用 户 界面 主要 由 四 个 不 同 的 页 面 组 成 ， 下 面 一 一 进行 讨论 。 


1. 作业 页 面 : 步骤 与 任务 的 进度 和 指标 ， 以 及 更 多 内 容 

如 图 8-2 所 示 ， 作 业 页 面包 含 正在 进行 的 或 刚 完 成 不 久 的 Spark 作业 的 详细 执行 情况 
中 一 个 很 重要 的 信息 是 正在 运行 的 作业 、 步 又 以 及 任务 的 进度 情况 。 针 对 每 个 步 又 ， 这 

页 面 提供 了 一 些 帮助 理解 物理 执行 过 程 的 指标 。 















































作业 页 面 是 在 Spark 1.2 中 才 引 入 的 ， 如 果 你 使 用 更 早 版 本 的 话 ， 就 看 不 
到 了 。 
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SS Ey a 
@eey/ ~/Spark Ul tester - Spark Jot x 由 这 
所 CQ | localhost:4040/jobs/ Q 六 下 局 cs 三 
3 Apps 畏 pg Sso 加 open Tickets Databricks Cloud ” 硬 spark ” 国 Databricks 太 other gookmarks 

Spa 让 Jobs ， Stages Storage Environment Executors Spark Ul tester application UI 


Spark Jobs (?) 


Total Duration: 2.9 min 
Scheduling Mode: FAIR 
Active Jobs: 1 
Completed Jobs: 19 
Failed Jobs: 15 


Active Jobs (1) 
Jobld Description Submitted 


34 Job with delays 2014/11/27 13:30:24 
count at UIWorkloadGenerator.scala:85 


Completed Jobs (19) 
Job ld Description Submitted ion 。 Stages: Succeeded/Total 
30 Single Shuffle 2014/11/27 13:30:04 1/1 (1 skipped) 
count at UIWorkloadGenerator.scala:64 
29 Cache and Count 2014/11/27 13:29:59 2s 1 
count at UIWorkloadGenerator.scala:63 
27 Job with aelays 2014/11/27 13:29:49 11 
count at UIWorkloadGenerator scala-85 
28 Count 2014/11/27 13:29:54 11 
count at UIWorkloadGenerator.scala:62 
23 Single Shuffie 2014/11/27 13:29:29 
count at UIWorkloadGenerator .scala:64 
22 Cache and Count 2014/11/27 13:29:24 
count at UIWorkloadGenerator.scala:63 
20 Vob with delays 2014/11/27 13:29:14 
count at UIWorkoadGenerator.scala:85 


i , 
车 

1 

| 名 

| | 

3 

名 


21 Count 2014/11/27 13:29:19 





Waiting for localhost... 














图 8-2: Spark 应 用 用 户 界面 的 作业 索引 页 面 


本 页 面 经 常用 来 评估 一 个 作业 的 性 能 表现 。 我 们 可 以 着 眼 于 组 成 作业 的 所 有 步骤 ， 看 看 是 
不 是 有 一 些 步骤 特别 慢 ， 或 是 在 多 次 运行 同一 个 作业 时 响应 时 间 差 距 很 大 。 如 果 你 遇 到 了 
格外 慢 的 步骤 ， 你 可 以 点 击 进去 来 更 好 地 理解 该 步骤 对 应 的 是 哪 段 用 户 代 码 。 


确定 了 需要 着 重 关注 的 步骤 之 后 ， 你 可 以 再 借助 图 8-3 所 示 的 步骤 页 面 来 定位 性 能 问题 。 
在 Spark 这 样 的 并 行 数据 系统 中 ， 数 据 倾 针 是 导致 性 能 问题 的 常见 原因 之 一 。 当 看 到 少量 
的 任务 相对 于 其 他 任务 需要 花费 大 量 时 间 的 时 候 ， 一 般 就 是 发 生 了 数据 倾斜 。 步 骤 页 面 可 
以 帮助 我 们 发 现 数据 倾斜 ， 我 们 只 需要 查看 所 有 任务 各 项 指标 的 分 布 情况 就 可 以 了 。 我 们 
可 以 从 任务 的 运行 时 间 开始 看 。 是 不 是 有 一 部 分 任务 花 的 时 间 比 别 的 任务 多 得 多 ? 如 果 是 
的 话 ， 你 可 以 深 挖 下 去 ， 看 到 底 是 什么 导致 了 这 些 任务 运行 缓慢 。 是 不 是 有 一 小 部 分 任务 
读 取 或 者 输出 了 比 别 的 任务 多 得 多 的 数据 ? 是 不 是 运行 在 某 些 特定 节点 上 的 任务 特别 慢 ? 
这 些 都 可 以 看 作 是 在 对 作业 进行 调试 时 很 有 帮助 的 出 发 点 。 











如 
eoe Spark Ul tester - Details fe x \ 


LL 
€ 外 localhost:4040/stages/stage/?id=3&attempt=0 = Q 家 :| cs 三 | 





3 Apps 图 D855sO0 '3) OpenTickets 图 oatabricks cloud 罚 spark 筷 | Databricks 户 | other gookmarks 
Spaik: Jobs Stages Storage Environment Executors Spark UI! tester application UI 
Details for Stage 3 


Total task time across all tasks: 3 s 
» Show additional metrics 


Summary Metrics for 100 Completed Tasks 





Metric Min 25th percentile Median 75th percentlle Max 
Duration 2 ms 3ms 4ms 8ms 03s 
Scheduler Delay 3ms 6ms 11ms 28 ms 01s 
Task Deserialization Time 。 0 ms 1ms 1ms 2 ms 26 ms 
GCTime 0ms Oms Oms Oms 12 ms 
Result Serialization Time Oms Oms Oms Oms 4ms 
Getting Result Time 0 ms 0 ms 0ms 0ms 0 ms 
Aggregated Metrics by Executor 
Executor Task Total Failed Succeeded Shuffle Shuffle Shuffle Spill Shuffle Spill 
ID Address Time Tasks Tasks Tasks Input Output Read Write (Memory) (Disk) 
<driver> localhost:53242 5s 100 0 100 00B 00B 00B 00B 00B 00B 
Tasks 
Task Result 
Executor ID Scheduler Deserialization GC Serialization Getting 
Index ID Attempt Status LocalityLevel /Host Launch Time Duration Delay Time Time Time Result Time ”Errors 
0 300 0 SUCCESS PROCESS LOCAL <driver>/ 20141127 02s 33ms 1ms 12ms 0ms Oms 
localhost = 13:27:44 
1 301 0 SUCCESS PROCESS LOCAL <driver>/ 2014/11/27 0.3s 11 ms Oms 12 ms 0ms Oms 
localhost = 13:27:44 
2 302 0 SUCCESS PROCESS LOCAL <drivers/ 2014/11/27 03s 17ms 1ms 12 ms 0 ms Oms 
localhost 13:27:44 














图 8-3: Spark 应 用 用 户 界面 中 的 步骤 详情 页 面 


除了 发 现 数据 倾斜 ， 本 页 面 还 可 以 用 来 查看 任务 在 其 生命 周期 的 各 个 阶段 〈 读 取 、 计 算 、 
输出 ) 分 别 花费 了 多 少时 间 。 如 果 任 务 花 了 很 少 的 时 间 读 取 或 输出 数据 ， 但 是 总 时 间 却 很 
长 ， 这 就 可 能 表明 用 户 代码 本 身 的 执行 比较 花 时 间 (用 户 代 码 优 化 的 例子 请 参见 6.4 节 )。 
有 些 任务 可 能 把 时 间 基 本 都 花 在 从 外 部 存储 系统 中 读 取 数据 这 部 分 了， 这 样 为 Spark 作 额 
外 的 优化 对 于 提高 性 能 就 没有 多 大 用 处 了 ， 毕 竞 这 些 任 务 的 瓶颈 在 于 输入 数据 的 读 取 。 











2. 存储 页 面 : 已 缓存 的 RDD 的 信息 

存储 页 面包 含 了 缓存 下 来 的 RDD 的 信息 。 当 有 人 在 一 个 RDD 上 调用 了 persist() 方法 ， 
并 且 在 某 个 作业 中 计算 了 该 RDD 时 ， 这 个 RDD 就 会 被 缓存 下 来 。 有 时 ， 如 果 我 们 缓存 了 
许多 RDD， 比 较 老 的 RDD 就 会 从 内 存 中 移出 来 ， 把 空间 留 给 新 缓存 的 RDD。 这 个 页 面 可 
以 告诉 我 们 到 底 各 个 RDD 的 哪些 部 分 被 缓存 了 ， 以 及 在 各 种 不 同 的 存储 媒介 (磁盘 、 内 
存 等 ) 中 所 缓存 的 数据 量 。 浏 览 这 个 页 面 并 理解 一 些 重要 的 数据 集 是 否 被 缓存 在 了 内 存 
中 ， 对 我 们 是 很 有 意义 的 。 


3. 执行 器 页 面 : 应 用 中 的 执行 器 进程 列表 
本 页 面 列 出 了 应 用 中 申请 到 的 执行 器 实例 ， 以 及 各 执行 器 进程 在 数据 处 理 和 存储 方面 的 一 
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些 指标 。 本 页 面 的 用 处 之 一 在 于 确认 应 用 可 以 使 用 你 所 预期 使 用 的 全 部 资源 量 。 调 试问 题 
时 也 最 好 先 浏 览 这 个 页 面 ， 因 为 错误 的 配置 可 能 会 导致 启动 的 执行 器 进程 数量 少 于 我 们 所 
预期 的 ， 显 然 也 就 会 影响 实际 性 能 。 这 个 页 面 对 于 查找 行为 异常 的 执行 器 节点 也 很 有 帮 
助 ， 比 如 某 个 执行 器 节点 可 能 有 很 高 的 任务 失败 率 。 失 败 率 很 高 的 执行 器 节点 可 能 表明 这 
个 执行 器 进程 所 在 的 物理 主机 的 配置 有 问题 或 者 出 了 故障 。 只 要 把 这 人 台 主 机 从 集群 中 移 
除 ， 就 可 以 提高 性 能 表现 。 



























































执行 器 页 面 的 另 一 个 功能 是 使 用 线程 转 存 〈Thread Dump) 按钮 收集 执行 器 进程 的 栈 跟踪 
信息 (该 功能 在 Spark 1.2 中 引入 )。 可 视 化 呈现 执行 器 进程 的 线程 调用 栈 可 以 精确 地 即时 

出 当前 执行 的 代码 。 在 短 时 间 内 使 用 该 功能 对 一 个 执行 器 进程 进行 多 次 采样 ， 你 就 可 
以 发 现 “ 热 点 "， 也 就 是 用 户 代码 中 消耗 代价 比较 大 的 代码 段 。 这 种 信息 分 析 通 常 可 以 检 
测 出 低 效 的 用 户 代码 。 




















4. 环境 页 面 : 用 来 调试 Spark 配 置 项 

本 页 面 枚 举 了 你 的 Spark 应 用 所 运行 的 环境 中 实际 生效 的 配置 项 集合 。 这 里 显示 的 配置 项 
代表 应 用 实际 的 配置 情况 。 当 你 检查 哪些 配置 标记 生效 时 ， 这 个 页 面 很 有 用 ， 尤 其 是 当 你 
同时 使 用 了 多 种 配置 机 制 时 。 这 个 页 面 也 会 列 出 你 添加 到 应 用 路 径 中 的 所 有 JAR 包 和 文 
件 ， 在 追踪 类 似 依赖 缺失 的 问题 时 可 以 用 到 。 



































8.3.2 ”驱动 器 进程 和 执行 器 进程 的 日 志 

在 某 些 情况 下 ， 用 户 需要 深入 研读 驱动 器 进程 和 执行 器 进程 所 生成 的 日 志 来 获取 更 多 信 
息 。 日 志 会 更 详细 地 记录 各 种 异常 事件 ， 例 如 内 部 的 警告 以 及 用 户 代码 输出 的 详细 异常 信 
息 。 这 些 数据 对 于 寻找 错误 原因 很 有 用 。 


Spark 日 志文 件 的 具体 位 置 取决 于 以 下 部 署 模式 。 








。 在 Spark 独立 模式 下 ， 所 有 日 志 会 在 独立 模式 主 节 点 的 网 页 用 户 界面 中 直接 显示 。 这 些 
日 志 默 认 存储 于 各 个 工作 节点 的 Spark 目录 下 的 work 目录 中 。 

。 在 Mesos 模式 下 ， 日 志 存 储 在 Mesos 从 节点 的 work/ 目录 中 ， 可 以 通过 Mesos 主 节 点 
用 户 界面 访问 。 

。 在 YARN 模式 下 ， 最 简单 的 收集 日 志 的 方法 是 使 用 YARN 的 日 志 收 集 工具 (运行 yarn 
logs -applicationId <app ID>) 来 生成 一 个 包含 应 用 日 志 的 报告 。 这 种 方法 只 有 在 应 
用 已 经 完全 完成 之 后 才能 使 用 ， 因 为 YARN 必须 先 把 这 些 日 志 聚 合 到 一 起 。 要 查看 
当前 运行 在 YARN 上 的 应 用 的 日 志 ， 你 可 以 从 资源 管理 器 的 用 户 界面 点 击 进 入 节点 
(Nodes) 页 面 ， 然 后 浏览 特定 的 节点 ， 再 从 那里 找到 特定 的 容器 。YARN 会 提供 对 应 
容器 中 Spark 输出 的 内 容 以 及 相关 日 志 。 将 来 的 Spark 版 本 有 可 能 会 提供 直接 指向 相应 
日 志 的 链接 ， 使 得 这 一 过 程 显得 不 再 那么 迁 回 。 











































































































在 默认 情况 下 ，Spark 输出 的 日 志 包 含 的 信息 量 比较 合适 。 我 们 也 可 以 自 定 义 日 志 行 为 ， 
改变 日 志 的 默认 等 级 或 者 默认 存放 位 置 。Spark 的 日 志 系 统 是 基于 广泛 使 用 的 Java 日 志 
库 log4j 实现 的 ， 使 用 log4j 的 配置 方式 进行 配置 。log4j 配置 的 示例 文件 已 经 打包 在 Spark 
中 ， 有 具体 位 置 是 conf/log4j.properties.template。 要 想 自 定义 Spark 的 日 志 ， 首 先 需 要 把 这 个 
示例 文件 复制 为 log4j.properties， 然 后 就 可 以 修改 日 志 行为 了 ， 比 如 修改 根 日 志 等 级 〈 即 
日 志 输 出 的 级 别 门 槛 ) ， 默 认 值 为 INF0。 如 果 想 要 更 少 的 日 志 输 出 ， 可 以 把 该 值 设 为 WARN 
或 者 ERROR。 当 设置 了 满意 的 日 志 等 级 或 格式 之 后 ， 你 可 以 通过 spark-submit 的 --Files 
标记 添加 1og4.properties 文件 。 如 果 你 在 设置 日 志 级 别 时 遇 到 了 困难 ， 请 首先 确保 你 没有 
在 应 用 中 引入 任何 自身 包含 log4j.properties 文件 的 JAR 包 。Log4j 会 扫描 整个 classpath 
以 其 找到 的 第 一 个 配置 文件 为 准 ， 因 此 如 果 在 别处 先 找 到 该 文件 ， 它 就 会 忽略 你 自 定义 的 
文件 。 


8.4 ”关键 性 能 考量 

读 到 这 里 ， 你 应 该 已 经 掌握 了 一 些 Spark 的 内 部 工作 原理 ， 如 何 跟踪 运行 中 的 Spark 应 用 
的 进度 ， 以 及 在 哪里 查看 指标 和 日 志 信 息 。 本 节 将 进入 下 一 步 ， 讨 论 运 行 Spark 应 用 时 可 
能 会 遇 到 的 性 能 方面 的 常见 问题 ， 以 及 关于 如 何 调 优 应 用 以 获取 最 佳 性 能 的 一 些小 提示 。 
前 三 小 节 会 介绍 如 何在 代码 层面 进行 改动 来 提高 性 能 ， 最 后 一 小 节 则 会 讨论 如 何 调 优 集群 
设 定 以 及 Spark 的 运行 环境 。 














































































































8.4.1 并 行 度 

RDD 的 逻辑 表示 其 实 是 一 个 对 象 集 合 。 我 们 在 本 书 中 已 经 多 次 提 到 ， 在 物理 执行 期 间 ， 
RDD 会 被 分 为 一 系列 的 分 区 ， 每 个 分 区 都 是 整个 数据 的 子 集 。 当 Spark 调度 并 运行 任务 
时 ，Spark 会 为 每 个 分 区 中 的 数据 创建 出 一 个 任务 。 该 任务 在 默认 情况 下 会 需要 集群 中 的 
一 个 计算 核心 来 执行 。Spark 也 会 针对 RDD 直接 自动 推断 出 合适 的 并 行 度 ， 这 对 于 大 多 
数 用 例 来 说 已 经 足够 了 。 输 入 RDD 一 般 会 根据 其 底层 的 存储 系统 选择 并 行 度 。 例 如 ， 从 
HDFS 上 读数 据 的 输入 RDD 会 为 数据 在 HDFS 上 的 每 个 文件 区 块 创建 一 个 分 区 。 从 数据 
混 洗 后 的 RDD 派生 下 来 的 RDD 则 会 采用 与 其 父 RDD 相同 的 并 行 度 。 


并 行 度 会 从 两 方面 影响 程序 的 性 能 。 首 先 ， 当 并 行 度 过 低 时 ，Spark 集群 会 出 现 资源 闲置 
的 情况 。 比 如 ， 假 设 你 的 应 用 有 1000 个 可 使 用 的 计算 核心 ， 但 所 运行 的 步骤 只 有 30 个 任 
务 ， 你 就 应 该 提高 并 行 度 来 充分 利用 更 多 的 计算 核心 。 而 当 并 行 度 过 高 时 ， 每 个 分 区 产生 
的 间接 开销 累计 起 来 就 会 更 大 。 评 判 并 行 度 是 否 过 高 的 标准 包括 任务 是 否 是 几乎 在 瞬间 
(毫秒 级 ) 完成 的 ， 或 者 是 否 观 察 到 任务 没有 读 写 任何 数据 。 






































Spark 提供 了 两 种 方法 来 对 操作 的 并 行 度 进行 调 优 。 第 一 种 方法 是 在 数据 混 洗 操作 时 ， 使 
用 参数 的 方式 为 混 洗 后 的 RDD 指定 并 行 度 。 第 二 种 方法 是 对 于 任何 已 有 的 RDD， 可 以 进 
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行 重新 分 区 来 获取 更 多 或 者 更 少 的 分 区 数 。 重 新 分 区 操作 通过 repartition() 实现 ， 该 操 
作 会 把 RDD 随机 打 乱 并 分 成 设 定 的 分 区 数目 。 如 果 你 确定 要 减少 RDD 分 区 ， 可 以 使 用 
coalesce() 操作 。 由 于 没有 打 乱 数据 ， 该 操作 比 repartition() 更 为 高 效 。 如 果 你 认为 当 
前 的 并 行 度 过 高 或 者 过 低 ， 可 以 利用 这 些 方 法 对 数据 分 布 进行 重新 调整 。 


举 个 例子 ， 假 设 我 们 从 S3 上 读 取 了 大 量 数据 ， 然 后 马上 进行 fitter() 操作 筛选 掉 数据 集 
中 的 绝 大 部 分 数据 。 默 认 情 况 下 ，filter() 返回 的 RDD 的 分 区 数 和 其 父 节 点 一 样 ， 这 样 
可 能 会 产生 很 多 空 的 分 区 或 者 只 有 很 少数 据 的 分 区 。 在 这 样 的 情况 下 ， 可 以 通过 合并 得 到 
分 区 更 少 的 RDD 来 提高 应 用 性 能 ， 如 例 8-11 所 示 。 


























例 8-11: 在 PySpark shell 中 合并 分 区 过 多 的 RDD 
# 以 可 以 匹配 数 千 个 文件 的 通 配 字符 串 作 为 输入 
>>> input = sc.textFiLe("s3n://Log-fLLes/2014/*.Log") 
>>> input.getNumpartitions() 
35154 
# 排除 掉 大 部 分 数据 的 筛选 方法 
>>> lines = input.filter(lambda Line: line.startswith("2014-10-17")) 
>>> lines.getNumpartitions() 
35154 
# 在 缓存 Lines 之 前 先 对 其 进行 合并 操作 
>>> lines = lines.coalesce(5).cache() 
>>> lines.getNumpartitions() 
4 
# 可 以 在 合并 之 后 的 RDD 上 进行 后 续 分 析 


>>> lines.count() 












































8.4.2 ”序列 化 格式 

当 Spark 需要 通过 网 络 传输 数据 ， 或 是 将 数据 洲 写 到 磁盘 上 时 ，Spark 需要 把 数据 序列 化 
为 二 进 制 格 式 。 序 列 化 会 在 数据 进行 混 洗 操作 时 发 生 ， 此 时 有 可 能 需要 通过 网 络 传输 大 量 
数据 。 默 认 情 况 下 ，Spark 会 使 用 Java 内 建 的 序列 化 库 。Spark 也 支持 使 用 第 三 方 序列 化 
库 Kryo (https://github.com/EsotericSoftware/kryo)， 可 以 提供 比 Java 的 序列 化 工具 更 短 的 
序列 化 时 间 和 更 高 压缩 比 的 二 进 制 表示 ， 但 不 能 直接 序列 化 全 部 类 型 的 对 象 。 几 乎 所 有 的 
应 用 都 在 迁移 到 Kryo 后 获得 了 更 好 的 性 能 。 














要 使 用 Kryo 序列 化 工具 ， 你 需要 设置 spark.serializer 为 org.apache.spark.serializer. 
KryoSerializer。 为 了 获得 最 佳 性 能 ， 你 还 应 该 向 Kryo 注册 你 想 要 序列 化 的 类 ， 如 
例 8-12 所 示 。 注 册 类 可 以 让 Kryo 避免 把 每 个 对 象 的 完整 的 类 名 写 下 来 ， 成 千 上 万 
条 记录 累计 节省 的 空间 相当 可 观 。 如 果 你 想 强制 要 求 这 种 注册 ， 可 以 把 spark.kryo. 
registrationRequired 设置 为 true， 这 样 Kryo 会 在 遇 到 未 注册 的 类 时 抛 出 错误 。 








例 8-12: 使 用 Kryo 序列 化 工具 并 注册 所 需 类 
val conf = new SparkConf() 
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") 





A 
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// 严格 要 求 注 册 类 
conf.set("spark.kryo.registrationRequired", "true") 
conf.registerKryoClasses(Array(classOf[MyClass], classOof[MyOtherClass])) 








不 论 是 选用 Kryo 还 是 Java 序列 化 ， 如 果 代 码 中 引用 到 了 一 个 没有 扩展 Java 的 Serializable 
接口 的 类 ， 你 都 会 遇 到 NotSerializableException。 在 这 种 情况 下 ， 要 查 出 引发 问题 的 类 
是 比较 困难 的 ， 因 为 用 户 代码 会 引用 到 许 许 多 多 不 同 的 类 。 很 多 JVM 都 支持 通过 一 个 特 
别 的 选项 来 帮助 调试 这 一 情况 : "-Dsun.io.serialization.extended DebugInfo=true”。 你 
可 以 通过 设置 spark-submit 的 --driver-java-options 和 --executor-java-options 标记 
来 打开 这 个 选项 。 一 旦 找到 了 有 问题 的 类 ， 最 简单 的 解决 方法 就 是 把 这 个 类 改 为 实现 了 
Serializable 接口 的 形式 。 如 果 没 有 办 法 修改 这 个 产生 问题 的 类 ， 你 就 需要 采用 一 些 高 级 
的 变通 策略 ， 比 如 为 这 个 类 创建 一 个 子 类 并 实现 Java 的 Externalizable 接口 (https://docs. 
oracle.com/javase/7/docs/api/java/io/Externalizable.html) ， 或 者 自 定义 Kryo 的 序列 化 行为 。 





























8.4.3 内存 管 理 
内 存 对 Spark 来 说 有 几 种 不 同 的 用 途 ， 理 解 并 调 优 Spark 的 内 存 使 用 方法 可 以 帮助 优化 
Spark 的 应 用 。 在 各 个 执行 器 进程 中 ， 内 存 有 以 下 所 列 几 种 用 途 。 





。 RDD 存 储 
当 调 用 RDD 的 persist() 或 cache() 方法 时 ， 这 个 RDD 的 分 区 会 被 存储 到 缓存 区 中 。 
Spark 会 根据 spark.storage.memoryFraction 限制 用 来 缓存 的 内 存 占 整 个 JVM 堆 空 间 的 
比例 大 小 。 如 果 超 出 限制 ， 旧 的 分 区 数据 会 被 移出 内 存 。 




















。 数据 混 洗 与 聚合 的 丝 硝 区 
当 进行 数据 混 洗 操作 时 ，Spark 会 创建 出 一 些 中 间 缓 存 区 来 存储 数据 混 洗 的 输出 数据 。 这 
些 缓存 区 用 来 存储 聚合 操作 的 中 间 结 果 ， 以 及 数据 混 洗 操 作 中 直接 输出 的 部 分 缓存 数据 。 
Spark 会 尝试 根据 spark.shuffle.memoryFraction 限定 这 种 缓存 区 内 存 占 总 内 存 的 比例 。 

















。 用 户 代 码 
Spark 可 以 执行 任意 的 用 户 代 码 ， 所 以 用 户 的 函数 可 以 自行 申请 大 量 内 存 。 例 如 ， 如 果 
一 个 用 户 应 用 分 配 了 巨大 的 数组 或 者 其 他 对 象 ， 那 这 些 都 会 占用 总 的 内 存 。 用 户 代 码 可 
以 访问 JVM 堆 空 间 中 除 分 配给 RDD 存储 和 数据 混 洗 存储 以 外 的 全 部 剩余 空间 。 


在 默认 情况 下 ，Spark 会 使 用 60% 的 空间 来 存储 RDD，20% 存储 数据 混 洗 操作 产生 的 数 
据 ， 剩 下 的 20% 留 给 用 户 程序 。 用 户 可 以 自行 调节 这 些 选 项 来 追求 更 好 的 性 能 表现 。 如 果 
用 户 代 码 中 分 配 了 大 量 的 对 象 ， 那 么 降低 RDD 存储 和 数据 混 洗 存储 所 占用 的 空间 可 以 有 
效 避 免 程序 内 存 不 足 的 情况 。 


除了 调整 内 存 各 区 域 比例 ， 我 们 还 可 以 为 一 些 工作 负载 改进 缓存 行为 的 某 些 要 素 。Spark 
默认 的 cache() 操作 会 以 MEMORY_ONLY 的 存储 等 级 持久 化 数据 。 这 意味 着 如 果 缓 存 新 的 
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RDD 分 区 时 空间 不 够 ， 旧 的 分 区 就 会 直接 被 删除 。 当 用 到 这 些 分 区 数据 时 ， 再 进行 重 算 。 
所 以 有 时 以 MEMORY_AND_DISK 的 存储 等 级 调用 persist() 方法 会 获得 更 好 的 效果 ， 因 为 在 这 
种 存储 等 级 下 ， 内 存 中 放 不 下 的 旧 分 区 会 被 写 和 人 磁盘， 当 再 次 需要 用 到 的 时 候 再 从 磁盘 上 
读 取 回来 。 这 样 的 代价 有 可 能 比重 算 各 分 区 要 低 很 多 ， 也 可 以 带 来 更 稳定 的 性 能 表现 。 当 
RDD 分 区 的 重 算 代 价 很 大 (比如 从 数据 库 中 读 取 数据 ) 时 ， 这 种 设置 尤其 有 用 。 可 用 存储 
等 级 的 完整 列表 请 参见 表 3-6。 






































对 于 默认 缓存 策略 的 另 一 个 改进 是 缓存 序列 化 后 的 对 象 而 非 直 接 缓存 。 我 们 可 以 通过 
MEMORY_ONLY_SER 或 者 MEMORY_AND_DISK_SER 的 存储 等 级 来 实现 这 一 点 。 缓 存 序列 化 后 的 对 
象 会 使 缓存 过 程 变 慢 ， 因 为 序列 化 对 象 也 会 消耗 一 些 代 价 ， 不 过 这 可 以 显著 减少 JVM 的 
垃圾 回收 时 间 ， 因 为 很 多 独立 的 记录 现在 可 以 作为 单个 序列 化 的 缓存 而 存储 。 垃 圾 回收 的 
代价 与 堆 里 的 对 象 数目 相关 ， 而 不 是 和 数据 的 字 节 数 相 关 。 这 种 缓存 方式 会 把 大 量 对 象 序 
列 化 为 一 个 巨大 的 缓存 区 对 象 。 如 果 你 需要 以 对 象 的 形式 缓存 大 量 数据 (比如 数 GB 的 数 
据 )， 或 者 是 注意 到 了 长 时 间 的 垃圾 回收 暂停 ， 可 以 考虑 配置 这 个 选项 。 这 些 暂 停 时 间 可 
以 在 应 用 用 户 界 面 中 显示 的 每 个 任务 的 垃圾 回收 时 间 那 一 栏 看 到 。 

















8.4.4 硬件 供给 
提供 给 Spark 的 硬件 资源 会 显 若 影 响应 用 的 完成 时 间 。 影 响 集群 规模 的 主要 参数 包括 分 配 
给 每 个 执行 器 节点 的 内 存 大 小 、 每 个 执行 器 节点 占用 的 核心 数 、 执 行 器 节点 总 数 ， 以 及 用 
来 存储 临时 数据 的 本 地 磁盘 数量 。 


在 各 种 部 署 模式 下 ， 执 行 器 节点 的 内 存 都 可 以 通过 spark.executor.memory 配置 项 或 者 
spark-submit 的 --executor-memory 标记 来 设置 。 而 执行 器 节点 的 数目 以 及 每 个 执行 器 
进程 的 核心 数 的 配置 选项 则 取决 于 各 种 部 署 模式 。 在 YARN 模式 下 ， 你 可 以 通过 spark. 
executor.cores 或 --executor-cores 标记 来 设置 执行 器 节点 的 核心 数 ， 通 过 --num- 
executors 设置 执行 器 节点 的 总 数 。 而 在 Mesos 和 独立 模式 中 ，Spark 则 会 从 调度 器 提供 的 
资源 中 获取 尽 可 能 多 的 核心 以 用 于 执行 器 节点 。 不 过 ，Mesos 和 独立 模式 也 支持 通过 设置 
spark.cores.max 项 来 限制 一 个 应 用 中 所 有 执行 器 节点 所 使 用 的 核心 总 数 。 本 地 磁盘 则 用 来 
在 数据 混 洗 操作 中 存储 临时 数据 。 


一 般 来 说 ， 更 大 的 内 存 和 更 多 的 计算 核心 对 Spark 应 用 会 更 有 用 处 。Spark 的 架构 允许 线 
性 伸缩 ， 双 倍 的 资源 通常 能 使 应 用 的 运行 时 间 减 半 。 在 调整 集群 规模 时 ， 需 要 额外 考虑 的 
方面 还 包括 是 否 在 计算 中 把 中 间 结 果 数 据 集 缓存 起 来 。 如 果 确 实 要 使 用 缓存 ， 那 么 内 存 中 
缓存 的 数据 越 多 ， 应 用 的 表现 就 会 越 好 。Spark 用 户 界面 中 的 存储 页 面 会 展示 所 缓存 的 数 
据 中 有 哪些 部 分 保留 在 内 存 中 。 你 可 以 从 在 小 集群 上 只 缓存 一 部 分 数据 开始 ， 然 后 推算 缓 
存 大 量 数 据 所 需要 的 总 内 存量 。 


除了 内 存 和 CPU 核心 ，Spark 还 要 用 到 本 地 磁盘 来 存储 数据 混 尝 操作 的 中 间 数 据 ， 以 及 溢 
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写 到 磁盘 中 的 RDD 分 区 数据 。 因 此 ， 使 用 大 量 的 本 地 磁盘 可 以 帮助 提升 Spark 应 用 的 性 
能 。 在 YARN 模式 下 ， 由 于 YARN 提供 了 自己 的 指定 临时 数据 存储 目录 的 机 制 ，Spark 的 
本 地 磁盘 配置 项 会 直接 从 YARN 的 配置 中 读 取 。 而 在 独立 模式 下 ， 我 们 可 以 在 部 署 集群 
时 ， 在 spark-env.sh 文件 中 设置 环境 变量 SPARK_LOCAL_DIRS， 这 样 Spark 应 用 启动 时 就 会 
自动 读 取 这 个 配置 项 的 值 。 如 果 运 行 的 是 Mesos 模式 ， 或 者 是 在 别 的 模式 下 需要 重 载 集群 
默认 的 存储 位 置 时 ， 可 以 使 用 spark.local.dir 选项 来 实现 配置 。 在 所 有 情况 下 ， 本 地 目 
录 的 设置 都 应 当 使 用 由 单个 逗号 隔 开 的 目录 列表 。 一 般 的 做 法 是 在 磁盘 的 每 个 分 卷 中 都 为 
Spark 设置 一 个 本 地 目录 。 写 操作 会 被 均衡 地 分 配 到 所 有 提供 的 目录 中 。 磁 盘 越 多 ， 可 以 
提供 的 总 吞吐 量 就 越 高 。 


切记 ,“ 越 多 越 好 ”的 原则 在 设置 执行 器 节点 内 存 时 并 不 一 定 适 用 。 使 用 巨大 的 堆 空间 可 能 
会 导致 垃圾 回收 的 长 时 间 暂 停 ， 从 而 严重 影响 Spark 作业 的 吞吐 量 。 有 时 ， 使 用 较 小 内 存 
(比如 不 超过 64GB) 的 执行 器 实例 可 以 缓解 该 问题 。Mesos 和 YARN 本 身 就 已 经 支持 在 同 
一 个 物理 主机 上 运行 多 个 较 小 的 执行 器 实例 ， 所 以 使 用 较 小 内 存 的 执行 器 实例 不 代表 应 用 所 
使 用 的 总 资源 一 定 会 减少 。 而 在 Spark 的 独立 模式 中 ， 我 们 需要 启动 多 个 工作 节点 实例 (使 
用 SPARK_NORKER_INSTANCES 指定 ) 来 让 单个 应 用 在 一 台 主 机 上 运行 于 多 个 执行 器 节点 中 。 这 
样 的 限制 很 有 可 能 会 在 以 后 的 版 本 中 被 去 掉 。 除 了 给 单个 执行 器 实例 分 配 较 小 的 内 存 ， 我 们 
还 可 以 用 序列 化 的 格式 存储 数据 (参见 8.4.3 节 ) 来 减轻 垃圾 回收 带 来 的 影响 。 





















































8.5 总结 


当 你 读 完 本 章 时 ， 相 信 你 已 经 为 处 理 生产 环境 中 的 Spark 用 例 作 好 了 充分 的 准备 。 我 们 讲 
到 了 Spark 的 配置 项 管理 、 执 行 的 组 成 部 分 、 用 户 界 面 中 的 相关 指标 ， 以 及 对 生产 环境 
中 的 工作 负载 常用 的 调 优 技巧 。 要 深入 了 解 Spark 调 优 ， 请 访问 官方 文档 中 的 调 优 指南 
(http://spark.apache.org/docs/latest/tuning.htm!l ) 。 
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第 9 章 


Spark SQL 





本 章 介 绍 Spark 用 来 操作 结构 化 和 半 结 构 化 数据 的 接口 一 一 Spark SQL。 结 构 化 数据 是 指 任 
何 有 结构 信息 的 数据 。 所 谓 结构 信息 ， 就 是 每 条 记录 共用 的 已 知 的 字段 集合 。 当 数据 符合 
这 样 的 条 件 时 ，Spark SQL 就 会 使 得 针对 这 些 数 据 的 读 取 和 查询 变 得 更 加 简单 高 效 。 具 体 
来 说 ，Spark SQL 提供 了 以 下 三 大 功能 ( 见 图 9-1)。 

















(1) Spark SQL 可 以 从 各 种 结构 化 数据 源 (例如 JSON、Hive、Parquet 等 ) 中 读 取 数据 。 





(2) Spark SQL 不 仅 支 持 在 Spark 程序 内 使 用 SQL 语句 进行 数据 查询 ， 也 支持 从 类 似 商 业 
智能 软件 Tableau 这 样 的 外 部 工具 中 通过 标准 数据 库 连 接 器 (JDBC/ODBC) 连接 Spark 
SQL 进行 查询 。 





(3) 当 在 Spark 程序 内 使 用 Spark SQL 时 ，Spark SQL 支持 SQL 与 常规 的 Python/Java/Scala 
代码 高 度 整合 ， 包 括 连接 RDD 与 SQL 表 、 公 开 的 自 定义 SQL 函数 接口 等 。 这 样 一 来 ， 
许多 工作 都 更 容易 实现 了 。 








为 了 实现 这 些 功能 ，Spark SQL 提供 了 一 种 特殊 的 RDD， 叫 作 SchemaRDD。'SchemaRDD 
是 存放 Row 对 象 的 RDD， 每 个 Row 对 象 代表 一 行 记 录 。SchemaRDD 还 包含 记录 的 结构 信 
息 ( 即 数据 字段 )。SchemaRDD 看 起 来 和 普通 的 RDD 很 像 ， 但 是 在 内 部 ，SchemaRDD 可 
以 利用 结构 信息 更 加 高 效 地 存储 数据 。 此 外 ，SchemaRDD 还 支持 RDD 上 所 没有 的 一 些 新 
操作 ， 比 如 运行 SQL 查询 。SchemaRDD 可 以 从 外 部 数据 源 创建 ， 也 可 以 从 查询 结果 或 普 
通 RDD 中 创建 。 











注 1: 1.3.0 及 后 续 版 本 中 ，SchemaRDD 已 经 被 DataFrame 所 取代 。 一 一 译 者 注 
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9-1: Spark SQL 的 用 途 











本 章 会 先 讲解 如 何在 常规 Spark 程序 中 使 用 ScthemaRDD， 以 读 取 和 查询 结构 化 数据 。 接 下 
来 会 讲解 Spark SQL 的 JDBC 服务 器 ， 它 可 以 让 你 在 一 个 共享 的 服务 器 上 运行 Spark SQL， 
也 可 以 让 SQL shell 或 者 类 似 Tableau 的 可 视 化 工具 连接 它 而 使 用 。 最 后 会 讨论 更 多 高 级 特 
性 。Spark SQL 是 Spark 中 比较 新 的 组 件 ， 在 Spark 1.3 以 及 后 续 版 本 中 还 会 有 重大 升级 ， 
因此 要 想 获取 关于 Spark SQL 和 SchemaRDD 的 最 新 信息 ， 请 访问 最 新 版 本 的 文档 。 


在 学 习 本 章 的 过 程 中 ， 我 们 会 使 用 Spark SQL 探索 一 个 包含 推 文 的 JSON 格式 的 文件 。 如 
果 你 手边 没有 现成 的 推 文 ， 你 可 以 使 用 Databricks 参考 应 用 (http://databricks.gitbooks.io/ 
databricks-spark-reference-applications/content/twitter_classifier/README.html) 来 下 载 一 些 。 
当然 ， 你 也 可 以 直接 使 用 本 书 Git 仓库 中 的 files/testweetjson 文件 。 











9.1 连接 Spark SQL 


跟 Spark 的 其 他 程序 库 一 样 ， 要 在 应 用 中 引入 Spark SQL 需要 添加 一 些 额 外 的 依赖 。 这 种 
分 离 机 制 使 得 Spark 内 核 的 编译 无 需 依赖 大 量 额 外 的 包 。 


Apache Hive 是 Hadoop 上 的 SQL 引擎，Spark SQL 编译 时 可 以 包含 Hive 支持 ， 也 可 以 
不 包含 。 包 含 Hive 支持 的 Spark SQL 可 以 支持 Hive 表 访 问 、UDF (用 户 自 定义 函数 )、 
SerDe (序列 化 格式 和 反 序 列 化 格式 )， 以 及 Hive 查询 语言 (HiveQL/HQL)。 需 要 强调 的 
一 点 是 ， 如 果 要 在 Spark SQL 中 包含 Hive 的 库 ， 并 不 需要 事先 安装 Hive。 一 般 来 说 ， 最 
好 还 是 在 编译 Spark SQL 时 引入 Hive 支持 ， 这 样 就 可 以 使 用 这 些 特 性 了 。 如 果 你 下 载 的 
是 二 进 制版 本 的 Spark， 它 应 该 已 经 在 编译 时 添加 了 Hive 支持 。 而 如 果 你 是 从 代码 编译 
Spark， 你 应 该 使 用 sbt/sbt -Phive assembly 编译 ， 以 打开 Hive 支持 。” 














注 2: sbt/sbt 命令 已 经 被 build/sbt 命令 禁 代 。 一 一 译 者 注 
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如 果 你 的 应 用 与 Hive 之 间 发 生 了 依赖 冲突 ， 并 且 无 法 通过 依赖 排除 以 及 依赖 封装 解决 问 
题 ， 你 也 可 以 使 用 没有 Hive 支持 的 Spark SQL 进行 编译 和 和 连接。 那样 的 话 ， 你 要 连接 的 
就 是 另 一 个 Maven 工件 了 。 








在 Java 以 及 Scala 中 ， 连 接 带 有 Hive 支持 的 Spark SQL 的 Maven 索引 如 例 9-1 所 示 。 





例 9-1: 带 有 Hive 支持 的 Spark SQL 的 Maven 索引 


groupId = org.apache.spark 
artifactId = spark-hive 2.10 
version = 1.2.0 


如 果 你 不 能 引入 Hive 依赖 ， 那 就 应 该 使 用 工件 spark-sql_2.10 来 代替 spark-hive_2.10。 
跟 其 他 的 Spark 程序 库 一 样 ， 在 Python 中 不 需要 对 构建 方式 进行 任何 修改 。 


当 使 用 Spark SQL 进行 编程 时 ， 根 据 是 否 使 用 Hive 支持 ， 有 两 个 不 同 的 入 口 。 推 荐 使 用 
的 入 口 是 HiveContext， 它 可 以 提供 HiveQL 以 及 其 他 依赖 于 Hive 的 功能 的 支持 。 更 为 基 
础 的 SQLContext 则 支持 Spark SQL 功能 的 一 个 子 集 ， 子 集中 去 掉 了 需要 依赖 于 Hive 的 功 
能 。 这 种 分 离 主要 是 为 那些 可 能 会 因为 引入 Hive 的 全 部 依赖 而 陷入 依赖 冲突 的 用 户 而 设 
计 的 。 使 用 HiveContext 不 需要 事先 部 署 好 Hive。 


我 们 推荐 使 用 HiveQL 作为 Spark SQL 的 查询 语言 。 关 于 HiveQL 已 经 有 许多 资料 面 
世 ， 包 括 Programming Hive (http://shop.oreilly.com/product/0636920023555.do) 以 及 在 线 
的 Hive 语言 手册 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual)。 在 
Spark1.0 和 1.1 中 ，Spark SQL 是 基于 Hive 0.12 的 ， 而 在 Spark 1.2 中 ，Spark SQL 支持 
Hive 0.13。 如 采 你 了 解 标准 SQL， 应 该 也 会 对 HiveQL 非常 熟悉 。 












































Spark SQL 是 Spark 中 一 个 较 新 的 组 件 ， 正 在 快速 发 展 中 。 兼 容 的 Hive 版 本 
会 在 将 来 不 断 变化 ， 所 以 请 查阅 最 新 版 本 的 文档 以 获取 详细 信息 。 

















最 后 ， 若 要 把 Spark SQL 连接 到 一 个 部 署 好 的 Hive 上 ， 你 必须 把 hive-site.xml 复制 到 
Spark 的 配置 文件 目录 中 ($SPARK_HOME/conf)。 即 使 没有 部 署 好 Hive，Spark SQL 也 可 
以 运行 。 





需要 注意 的 是 ， 如 果 你 没有 部 署 好 Hive，Spark SQL 会 在 当前 的 工作 目录 中 创建 出 自己 的 
Hive 元 数据 仓库 ， 叫 作 metastore_db。 此 外 ， 如 果 你 尝试 使 用 HiveQL 中 的 CREATE TABLE 
(并 非 CREATE EXTERNAL TABLE) 语句 来 创建 表 ， 这 些 表 会 被 放 在 你 默认 的 文件 系统 中 的 
/user/hive/warehouse 目录 中 (如 果 你 的 classpath 中 有 配 好 的 hdfs-site.xml， 默 认 的 文件 系 
统 就 是 HDFS， 否 则 就 是 本 地 文件 系统 )。 
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9.2 在 应 用 中 使 用 Spark SQL 


Spark SQL 最 强大 之 处 就 是 可 以 在 Spark 应 用 内 使 用 。 这 种 方式 让 我 们 可 以 轻松 读 取 数 据 
并 使 用 SQL 查询 ， 同 时 还 能 把 这 一 过 程 和 普通 的 Python/Java/Scala 程序 代码 结合 在 一 起 。 




















要 以 这 种 方式 使 用 Spark SQL， 需 要 基于 已 有 的 SparkContext 创建 出 一 个 HiveContext (如 果 
使 用 的 是 去 除了 Hive 支持 的 Spark 版 本 ， 则 创建 出 SQLContext) 。 这 个 上 下 文 环境 提供 了 对 
Spark SQL 的 数据 进行 查询 和 交互 的 额外 函数 。 使 用 HiveContext 可 以 创建 出 表示 结构 化 数据 
的 SchemaRDD， 并 且 使 用 SQL 或 是 类 似 map() 的 普通 RDD 操作 来 操作 这 些 SchemaRDD。 














9.2.1 初始 化 Spark SQL 
要 开始 使 用 Spark SQL， 首 先 要 在 程序 中 添加 一 些 import 声明 ， 如 例 9-2 所 示 。 














例 9-2: Scala 中 SQL 的 import 声明 
// 导入 Spark SQL 
import org.apache.spark.sql.hive.HiveContext 


// 如 果 不 能 使 用 hive 依 赖 的 话 


import org.apache.spark.sql.SQLContext 





Scala 用 户 能 应 该 注意 到 ， 这 里 没有 用 类 似 在 导入 SparkContext 时 的 方法 那样 导入 
HiveContext._ 来 访问 隐 式 转换 。 隐 式 转换 被 用 来 把 带 有 类 型 信息 的 RDD 转变 为 专门 用 于 
Spark SQL 查询 的 RDD (也 就 是 SchemaRDD)。 在 创建 出 HiveContext 的 实例 之 后 ， 通 过 
添加 如 例 9-3 所 示 的 代码 导入 必要 的 隐 式 转换 支持 。Java 和 Python 版 本 的 import 声明 分 别 
如 例 9-4 和 例 9-5 所 示 。 


例 9-3: Scala 中 SQL 需要 导入 的 隐 式 转换 支持 
// 创建 Spark SQL 的 HiveContext 
val hiveCtx = ... 
// 导入 隐 式 转换 支持 


import hiveCtx._ 








例 9-4: Java 中 SQL 的 import 声明 
// 导入 Spark SQL 
import org.apache.spark.sql.hive.HiveContext; 
// 当 不 能 使 用 hive 依 赖 时 
import org.apache.spark.sql.SQLContext; 
// 导入 JavaSchemaRDD 
import org.apache.spark.sql.SchemaRDD; 
import org.apache.spark.sqL.Row; 





例 9-5: Python 中 SQL 的 import 声明 
# 导入 Spark SQL 
from pyspark.sql import HiveContext, Row 
# 当 不 能 引入 hive 依 赖 时 
from pyspark.sql import SQLContext, Row 








A 
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添加 好 import 声明 之 后 ， 需 要 创建 出 一 个 HiveContext 对 象 。 而 如 果 无 法 引入 Hive 依赖 ， 
就 创建 出 一 个 SQLContext 对 象 作 为 SQL 的 上 下 文 环 境 (如 例 9-6 至 例 9-8 所 示 )。 这 两 个 
类 都 需要 传人 一 个 SparkContext 对 象 作 为 运行 的 基础 。 








例 9-6: 在 Scala 中 创建 SQL 上 下 文 环境 
val sc = new SparkContext(...) 
val hiveCtx = new HiveContext(sc) 


例 9-7: 在 Java 中 创建 SQL 上 下 文 环 境 


JavaSparkContext ctx = new JavaSparkContext(...); 
SQLContext sqLCtx = new HiveContext(ctx); 


例 9-8: 在 Python 中 创建 SQL 上 下 文 环 境 


hiveCtx = HiveContext(sc) 


有 了 HiveContext 或 者 SQLContext 之 后 ， 我 们 就 可 以 准备 读 取 数据 并 进行 查询 了 。 


9.2.2 基本 查询 示例 


要 在 一 张 数 据 表 上 进行 查询 ， 需 要 调用 HiveContext 或 SQLContext 中 的 sqL() 方法 。 要 做 
的 第 一 件 事 就 是 告诉 Spark SQL 要 查询 的 数据 是 什么 。 因 此 ， 需 要 先 从 JSON 文件 中 读 取 
一 些 推 特 数据 ， 把 这 些 数 据 注册 为 一 张 临时 表 并 赋予 该 表 一 个 名 字 ， 然 后 就 可 以 用 SQL 来 
查询 它 了 。(9.3 节 会 更 深入 地 讲解 读 取 数据 的 细节 。) 接 下 来 ， 就 可 以 根据 retweetCount 
字段 (转发 计数 ) 选 出 最 热门 的 推 文 ， 如 例 9-9 至 例 9-11 所 示 。 


例 9-9: 在 Scala 中 读 取 并 查询 推 文 
val input = hiveCtx.jsonFile(inputFile) 
// 注册 输入 的 SchemaRDD 
input.registerTempTable("tweets") 


// 依据 retweetCount( 转 发 计数 ) 选 出 推 文 
val topTweets = hiveCtx.sql("SELECT text, retweetCount FROM 
tweets ORDER BY retweetCount LIMIT 10") 






































例 9-10: 在 Java 中 读 取 并 查询 推 文 
SchemaRDD ;input = hiveCtx.jsonFile(inputFile); 
// 注册 输入 的 SchemaRDD 
input.registerTempTable("tweets"); 
// 依据 retweetCount( 转 发 计数 ) 选 出 推 文 
SchemaRDD topTweets = hiveCtx.sql("SELECT text, retweetCount FROM 
tweets ORDER BY retweetCount LIMIT 10"); 








例 9-11: 在 Python 中 读 取 并 查询 推 文 
input = hiveCtx.jsonFile(inputFile) 
# 注册 输入 的 SchemaRDD 
input.registerTempTable("tweets") 


# 依据 retweetCount( 转 发 计数 ) 选 出 推 文 
topTweets = hiveCtx.sql("""SELECT text, retweetCount FROM 
tweets ORDER BY retweetCount LIMIT 10""") 
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如 果 你 已 经 有 安装 好 的 Hive， 并 且 已 经 把 你 的 hive-site.xml 文件 复制 到 了 
$SPARK_HOME/conf 目录 下 ， 那 么 你 也 可 以 直接 运行 hiveCtx.sql 来 查询 已 
有 的 Hive 表 。 





9.2.3 SchemaRDD 


读 取 数据 和 执行 查询 都 会 返回 SchemaRDD。SchemaRDD 和 传统 数据 库 中 的 表 的 概念 类 
似 。 从 内 部 机 理 来 看 ，SchemaRDD 是 一 个 由 Row 对 象 组 成 的 RDD， 附 带 包 含 每 列 数据 类 
型 的 结构 信息 。Row 对 象 只 是 对 基本 数据 类 型 (如 整 型 和 字符 串 型 等 ) 的 数组 的 封装 。 我 
们 会 在 下 一 部 分 中 进一步 探讨 Row 对 象 的 细 市 。 














需要 特别 注意 的 是 ， 在 今后 的 Spark 版 本 中 (1.3 及 以 后 ) ，SchemaRDD 这 个 名 字 可 能 会 被 
改 为 DataFrame。 这 一 重 命名 举动 在 本 书 编写 完成 时 仍 在 讨论 中 。 














SchemaRDD 仍然 是 RDD， 所 以 你 可 以 对 其 应 用 已 有 的 RDD 转化 操作 ， 比 如 map() 和 
filter()。 然 而 ，SchemaRDD 也 提供 了 一 些 额外 的 功能 支持 。 最 重要 的 是 ， 你 可 以 把 任 
意 SchemaRDD 注册 为 临时 表 ， 这 样 就 可 以 使 用 HiveContext.sql 或 SQLContext.sql 来 对 它 
进行 查询 了 。 你 可 以 通过 SchemaRDD 的 registerTempTable() 方法 这 么 做 ， 如 例 9-9 到 例 
9-11 所 示 。 





临时 表 是 当前 使 用 的 HiveContext 或 SQLContext 中 的 临时 变量 ， 在 你 的 应 用 
退出 时 这 些 临 时 表 就 不 再 存在 了 。 





SchemaRDD 可 以 存储 一 些 基本 数据 类 型 ， 也 可 以 存储 由 这 些 类 型 组 成 的 结构 体 和 数组 。 
SchemaRDD 使 用 HiveQL 语法 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual+t 
DDL) 定义 的 类 型 。 表 9-1 列 出 了 支持 的 数据 类 型 。” 


表 9-1: SchemaRDD 中 可 以 存储 的 数据 类 型 











Spark SQL/HiveQL 类 型 ”Scala 类 型 Java 类 型 Python 

TINYINT Byte Byte/byte int/long( 在 -128 到 127 之 间 ) 

SMALLINT Short Short/short int/Long ( 在 -32768 到 32767 
之 间 ) 

INT Int Int/int int 或 Long 

BIGINT Long Long/Long Long 

FLOAT FLoat FLoat /float float 

DOUBLE Double Double/double float 








注 3: 编译 时 除 通过 -Phive 打开 Hive 支持 外 ， 





还 需 打 开 -Phive-thriftserver 选项 。 一 一 译 者 注 
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Spark SQL/HiveQL 类 型 ”Scala 类 型 Java 类 型 Python 

DECIMAL Scala.math.BigDecimal java.math.BigDecimal decimal.Decimal 
STRING String String string 

BINARY Array[Byte] byte[] bytearray 

BOOLEAN Boolean Boolean/boolean bool 

TIMESTAMP java.sql.TimeStamp java.sql.TimeStamp datetime .datetime 
ARRAY<DATA_TYPE> Seq List list、tuple 或 array 
MAP<KEY_TYPE, VAL_TYPE> Map Map dict 

STRUCT<COL1: Row Row Row 


COL1_TYPE, ...> 





最 后 一 种 类 型 ， 也 就 是 结构 体 ， 在 Spark SQL 中 直接 被 表示 为 其 他 的 Row 对 象 。 所 有 这 些 
复杂 类 型 都 可 以 互相 典 套 。 比 如 ， 你 可 以 有 结构 体 组 成 的 数组 ， 或 包含 结构 体 的 映射 表 。 





使 用 Row 对 象 

Row 对 象 表 示 SchemaRDD 中 的 记录 ， 其 本 质 就 是 一 个 定 长 的 字段 数组 。 在 Scala/Java 中 ， 
Row 对 象 有 一 系列 getter 方法 ， 可 以 通过 下 标 获取 每 个 字段 的 值 。 标 准 的 取 值 方法 get (或 
Scala 中 的 apply)， 读 入 一 个 列 的 序号 然后 返回 一 个 0bject 类 型 (或 Scala 中 的 Any 类 型 ) 
的 对 象 ， 然 后 由 我 们 把 对 象 转 为 正确 的 类 型 。 对 于 Boolean、Byte、Double、Float、Int、 
Long、Short 和 String 类 型 ， 都 有 对 应 的 getType() 方法 ， 可 以 把 值 直 接 作为 相应 的 类 型 
返回 。 例 如 ，getstring(9) 会 把 字段 0 的 值 作为 字符 串 返 回 ， 如 例 9-12 和 例 9-13 所 示 。 

















例 9-12: 在 Scala 中 访问 topTweet 这 个 SchemaRDD 中 的 text 列 (也 就 是 第 一 列 ) 
val topTweetText = topTweets.map(row => row.getString(0)) 


例 9-13: 在 Java 中 访问 topTweet 这 个 SchemaRDD 中 的 text 列 (也 就 是 第 一 列 ) 
JavaRDD<String> topTweetText = topTweets.toJavaRDD().map(new Function<Row, String>() { 
public String call(Row row) { 
return row.getString(0); 


}}); 


在 Python 中， 由 于 没有 显 式 的 类 型 系统 ，Row 对 象 变 得 稍 有 不 同 。 我 们 使 用 row[i] 来 访问 
第 个 元 素 。 除 此 之 外 ，Python 中 的 Row 还 支持 以 row.column_nane 的 形式 使 用 名 字 来 访问 
其 中 的 字段 ， 如 例 9-14 所 示 。 如 果 你 不 确定 具体 的 列 名 ， 我 们 会 在 9.3.3 市 中 讲 到 如 何 输 
出 结构 信息 。 








例 9-14: 在 Python 中 访问 topTweet 这 个 SchemaRDD 中 的 text 列 


topTweetText = topTweets.map(lambda row: row.text) 
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9.2.4 缓存 

Spark SQL 的 缓存 机 制 与 Spark 中 的 稍 有 不 同 。 由 于 我 们 知道 每 个 列 的 类 型 信息 ， 所 以 
Spark 可 以 更 加 高 效 地 存储 数据 。 为 了 确保 使 用 更 节约 内 存 的 表示 方式 进行 缓存 而 不 是 储 
存 整个 对 象 ， 应 当 使 用 专门 的 hivectx.cacheTable("tableName") 方法 。 当 缓存 数据 表 时 ， 
Spark SQL 使 用 一 种 列 式 存 储 格式 在 内 存 中 表示 数据 。 这 些 缓存 下 来 的 表 只 会 在 驱动 器 程 
序 的 生命 周期 里 保留 在 内 存 中 ， 所 以 如 果 驱 动 器 进程 退出 ， 就 需要 重新 缓存 数据 。 和 缓存 
RDD 时 的 动机 一 样 ， 如 果 想 在 同样 的 数据 上 多 次 运行 任务 或 查询 时 ， 就 应 把 这 些 数 据 表 组 
存 起 来 。 














在 Spark 1.2 中，RDD 上 原 有 的 cache() 方法 也 会 引发 一 次 对 cacheTable() 
方法 的 调用 。 





你 也 可 以 使 用 HiveQL/SQL 语句 来 缓存 表 。 只 需要 运行 CACHE TABLEtableName 或 UNCACHE 
TABLEtableNanme 来 缓存 表 或 者 删除 已 有 的 缓存 即 可 。 这 种 使 用 方式 在 JDBC 服务 器 的 命令 
行 客户 端 中 很 常用 。 

被 缓存 的 SchemaRDD 以 与 其 他 RDD 相似 的 方式 在 Spark 的 应 用 用 户 界面 中 呈现 ， 如 
9-2 所 示 。 








Storage 





Storage Level Cached Partitions =Fraction Cached Size in Memory Size in Tachyon Size on Disk 
Memory Deserialized lx Replicated = 2 100% 10617 KB o08 ooB 














9-2: Spark SQL 的 SchemaRDD 用 户 界 面 


我 们 会 在 9.6 节 讨 论 Spark SQL 中 的 缓存 机 制 对 性 能 的 影响 。 





9.3 ” 读 取 和 存储 数据 


Spark SQL 支持 很 多 种 结构 化 数据 源 ， 可 以 让 你 跳 过 复杂 的 读 取 过 程 ， 轻 松 从 各 种 数据 
源 中 读 取 到 Row 对 象 。 这 些 数据 源 包括 Hive 表 、JSON 和 Parquet 文件 。 此 外 ， 当 你 使 用 
SQL 查询 这 些 数据 源 中 的 数据 并 且 只 用 到 了 一 部 分 字段 时 ，Spark SQL 可 以 智能 地 只 扫描 
这 些 用 到 的 字段 ， 而 不 是 像 SparkContext.hadoopFile 中 那样 简单 粗暴 地 扫描 全 部 数据 。 














除 这 些 数据 源 之 外 ， 你 也 可 以 在 程序 中 通过 指定 结构 信息 ， 将 常规 的 RDD 转化 为 
SchemaRDD。 这 使 得 在 Python 或 者 Java 对 象 上 运行 SQL 查询 更 加 简单 。 当 需要 计算 许 
多 数值 时 ，SQL 查询 往往 更 加 简洁 〈 比 如 要 同时 求 出 平均 年 龄 、 最 大 年 龄 、 不 重复 的 用 
户 ID 数目 等 )。 不 仅 如 此 ， 你 还 可 以 自如 地 将 这 些 RDD 和 来 自 其 他 Spark SQL 数据 源 的 
SchemaRDD 进行 连接 操作 。 在 本 广 中 ， 我 们 会 讲解 外 部 数据 源 以 及 这 种 使 用 RDD 的 方式 。 








| 中 


























9.3.1 _ Apache Hive 


当 从 Hive 中 读 取 数据 时 ，Spark SQL 支持 任何 Hive 支持 的 存储 格式 (SerDe) ， 包 括 文本 
文件 、RCFiles、ORC、Parquet、Avro， 以 及 Protocol Buffer。 











要 把 Spark SQL 连接 到 已 经 部 署 好 的 Hive 上 ， 你 需要 提供 一 份 Hive 配置 。 你 只 需要 把 你 
的 hive-site.xml 文件 复制 到 Spark 的 ./conf/ 目录 下 即 可 。 如 果 你 只 是 想 探索 一 下 Spark SQL 
而 没有 配置 hive-site.xml 文件 ， 那 么 Spark SQL 则 会 使 用 本 地 的 Hive 元 数据 仓 ， 并 且 同 样 
可 以 轻松 地 将 数据 读 取 到 Hive 表 中 进行 查询 。 


例 9-15 至 例 9-17 展示 了 如 何 查询 一 张 Hive 表 。Hive 示例 表 有 两 列 ， 分 别 是 key (一 个 整 
型 值 ) 和 value (一 个 字符 串 )。 我 们 会 在 本 章 稍 后 介绍 如 何 创建 这 样 的 表 。 

















例 9-15: 使 用 Python 从 Hive 读 取 


from pyspark.sql import HiveContext 


hiveCtx = HiveContext(sc) 
rows = hiveCtx.sql("SELECT key, value FROM mytable") 
keys = rows.map(Lambda row: row[0]) 


例 9-16: 使 用 Scala 从 Hive 读 取 


import org.apache.spark.sql.hive.HiveContext 


val hiveCtx = new HiveContext(sc) 
val rows = hiveCtx.sql("SELECT key, value FROM mytable") 
val keys = rows.map(row => row.getInt(0)) 


例 9-17: 使 用 Java 从 Hive 读 取 
import org.apache.spark.sql.hive.HiveContext; 
import org.apache.spark.sqL.Row; 
import org.apache.spark.sql.SchemaRDD; 
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HiveContext hiveCtx = new HiveContext(sc); 

SchemaRDD rows = hiveCtx.sql("SELECT key, value FROM mytable"); 

JavaRDD<Integer> keys = rdd.toJavaRDD().map(new Function<Row, Integer>() { 
public Integer call(Row row) { return row.getInt(0); } 

]); 


9.3.2 Parquet 

Parquet (http://parquet.apache.org/) 是 一 种 流行 的 列 式 存 储 格式 ， 可 以 高 效 地 存储 具有 幅 套 
字段 的 记录 。Parquet 格式 经 常 在 Hadoop 生态 圈 中 被 使 用 ， 它 也 支持 Spark SQL 的 全 部 数 
据 类 型 。Spark SQL 提供 了 直接 读 取 和 存储 Parquet 格式 文件 的 方法 。 











首先 ， 你 可 以 通过 HiveContext.parquetFile 或 者 5SQLContext.parquetFile 来 读 取 数 据 ， 如 
例 9-18 所 示 。 


例 9-18: Python 中 的 Parquet 数据 读 取 


# 从 一 个 有 name 和 favouriteAnimat 字 段 的 Parquet 文 件 中 读 取 数据 
rows = hiveCtx.parquetFile(parquetFile) 

names = rows.map(Lambda row: row.name) 

print "Everyone" 

print names.collect() 





你 也 可 以 把 Parquet 文件 注册 为 Spark SQL 的 临时 表 ， 并 在 这 张 表 上 运行 查询 语句 。 在 例 
9-18 中 我 们 读 取 了 数据 ， 接 下 来 可 以 参照 例 9-19 所 示 的 对 数据 进行 查询 。 


例 9-19: Python 中 的 Parquet 数据 查询 
# 寻找 熊猫 爱 好 者 
tbl = rows.registerTempTable("people") 
pandaFriends = hiveCtx.sql("SELECT name FROM people WHERE favouriteAnimal = 
\"panda\"") 
print "Panda friends" 
print pandaFriends.map(lambda row: row.name).collect() 

















最 后 ， 你 可 以 使 用 saveAsParquetFile() 把 SchemaRDD 的 内 容 以 Parquet 格式 保存 ， 如 例 
9-20 所 示 。 


例 9-20: Python 中 的 Parquet 文件 保存 
pandaFriends.saveAsParquetFile("hdfs://...") 


9.3.3 JSON 


如 果 你 有 一 个 JSON 文件 ， 其 中 的 记录 遵循 同样 的 结构 信息 ， 那 么 Spark SQL 就 可 以 通过 
扫描 文件 推测 出 结构 信息 ， 并 且 让 你 可 以 使 用 名 字 访 问 对 应 字段 (如 例 9-21 所 示 )。 如 果 
你 在 一 个 包含 大 量 JSON 文件 的 目录 中 进行 尝试 ， 你 就 会 发 现 Spark SQL 的 结构 信息 推断 
可 以 让 你 非常 高 效 地 操作 数据 ， 而 无 需 编写 专门 的 代码 来 读 取 不 同 结构 的 文件 。 
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要 读 取 JSON 数据 ， 只 要 调用 hivectx 中 的 jsonFitLe() 方法 即 可 ， 如 例 9-22 至 例 9-24 
所 示 。 如 果 你 想 获 得 从 数据 中 推断 出 来 的 结构 信息 ， 可 以 在 生成 的 SchemaRDD 上 调用 
printSchena 方法 ( 见 例 9-25)。 





例 9-21: 输入 记录 
"name": "Holden"} 
"name": "Sparky The Bear", "lovesPandas":true,"knows": {"friends":["holden"]}} 


例 9-22: 在 Python 中 使 用 Spark SQL 读 取 JSON 数据 
input = hiveCtx.jsonFile(inputFile) 


例 9-23: 在 Scala 中 使 用 Spark SQL 读 取 JSON 数据 


val input = hiveCtx.jsonFile(inputFile) 


例 9-24: 在 Java 中 使 用 Spark SQL 读 取 JSON 数据 


SchemaRDD input = hiveCtx.jsonFile(jsonFile); 


例 9-25: printschema() 输出 的 结构 信息 


root 
|-- knows: struct (nullable = true) 
| |-- friends: array (nullable = true) 
| | |-- element: string (containsNull = false) 
|-- LovesPandas: boolean (nullable = true) 
|-- name: string (nullable = true) 


你 可 以 在 例 9-26 中 看 到 以 某 些 推 文生 成 的 结构 信息 。 
例 9-26: 推 文 的 部 分 结构 


root 
|-- contributorsIDs: array (nullable = true) 
| |-- element: string (containsNull = false) 
|-- createdAt: string (nullable = true) 
|-- currentUserRetweetId: integer (nullable = true) 
|-- hashtagEntities: array (nullable = true) 
| |-- element: struct (containsNull = false) 
| | |-- end: integer (nullable = true) 
| | |-- start: integer (nullable = true) 
| | |-- text: string (nullable = true) 
|-- id: Long (nullable = true) 
|-- inReplyToScreenName: string (nullable = true) 
| ss 
[2 
[es 
| 
|-- 
| 
| 
| 
| 





inReplyToStatusId: Long (nullable = true) 
inReplyToUserId: long (nullable = true) 
isFavorited: boolean (nullable = true) 
isPossiblySensitive: boolean (nullable = true) 
isTruncated: boolean (nullable = true) 
mediaEntities: array (nullable = true) 

|-- element: struct (containsNull = false) 

| |-- displayURL: string (nullable = true) 

| |-- end: integer (nullable = true) 
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-- expandedURL: string (nullable = true) 
-- id: long (nullable = true) 
-- mediaURL: string (nullable = true) 
-- mediaURLHttps: string (nullable = true) 
-- Sizes: struct (nullable = true) 

|-- 0: struct (nullable = true) 
| |-- height: integer (nullable = true) 
| |-- resize: integer (nullable = true) 
| |-- width: integer (nullable = true) 
|-- 1: struct (nullable = true) 
| |-- height: integer (nullable = true) 
| |-- resize: integer (nullable = true) 
| |-- width: integer (nullable = true) 
|-- 2: struct (nullable = true) 
| 
| 
|-- 3 
| 
| 


|-- height: integer (nullable = true) 
|-- resize: integer (nullable = true) 
|-- width: integer (nullable = true) 
: struct (nullable = true) 
|-- height: integer (nullable = true) 
|-- resize: integer (nullable = true) 
| |-- width: integer (nullable = true) 
-- start: integer (nullable = true) 
-- type: string (nullable = true) 
|-- url: string (nullable = true) 
-- retweetCount: integer (nullable = true) 





看 到 这 样 的 结构 ， 我 们 会 自然 而 然 地 想到 如 何 访问 笛 套 字段 和 数组 字段 这 个 问题 。 如 果 你 
使 用 Python， 或 已 经 把 数据 注册 为 了 一 张 SQL 表 ， 你 可 以 通过 . 来 访问 各 个 髓 套 层 级 的 
长 套 元 素 (比如 toplevel.nextlevel)。 而 在 SQL 中 可 以 通过 用 [element] 指定 下 标 来 访 
问 数组 中 的 元 素 ， 如 例 9-27 所 示 。 


例 9-27: 用 SQL 查询 嵌 套 数据 以 及 数组 元 素 


select hashtagEntities[0].text from tweets LIMIT 1; 








9.3.4 基于 RDD 


除了 读 取 数据 ， 也 可 以 基于 RDD 创建 SchemaRDD。 在 Scala 中 ， 带 有 case class 的 RDD 
可 以 隐 式 转换 成 SchemaRDD。 





在 Python 中， 可 以 创建 一 个 由 Row 对 象 组 成 的 RDD， 然 后 调用 inferschema()， 如 例 9-28 
所 示 。 





例 9-28: 在 Python 中 使 用 Row 和 具名 元 组 创建 SchemaRDD 


happyPeopleRDD = sc.parallelize([Row(name="holden", favouriteBeverage="coffee")]) 
happyPeopleSchemaRDD = hiveCtx.inferSchema(happyPeopleRDD) 
happyPeopleSchemaRDD.registerTempTable("happy_people") 





使 用 Scala 的 话 ， 我 们 的 老 朋 友 隐 式 转换 会 帮 有 我 们 处 理 好 结构 信息 的 推断 〈 见 例 9-29)。 





大 
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例 9-29: 在 Scala 中 基于 case class 创建 SchemaRDD 
case class HappyPerson(handle: String, favouriteBeverage: String) 
// 创建 了 一 个 人 的 对 象 , 并 且 把 它 转 成 SchemaRDD 
val happyPeopleRDD = sc.parallelize(List(HappyPerson("holden", "coffee"))) 
// 注意 :此 处 发 生 了 隐 式 转换 
// 该 转换 等 价 于 sqLCtx.createSchemaRDD(happyPeopLeRDD ) 
happyPeopLeRDD .registerTempTabLe("happy_peoptLe'") 


在 Java 中 ， 可 以 调用 appLySchema() 把 RDD 转 为 SchemaRDD， 只 需要 这 个 RDD 中 的 数 
据 类 型 带 有 公有 的 getter 和 setter 方法 ， 并 且 可 以 被 序列 化 ， 如 例 9-30 所 示 。 




















例 9-30: 在 Java 中 基于 JavaBean 创建 SchemaRDD 


class HappyPerson implements Serializable { 
private String name; 
private String favouriteBeverage; 
public HappyPerson() {} 
public HappyPerson(String n, String b) { 
name = Nn; favouriteBeverage = b; 
} 
public String getName() { return name; } 
public void setName(String n) { name = n; } 
public String getFavouriteBeverage() { return favouriteBeverage; } 
public void setFavouriteBeverage(String b) { favouriteBeverage = b; } 


}; 


ArrayList<HappyPerson> peopleList = new ArrayList<HappyPerson>(); 
peoplelList.add(new HappyPerson("holden", "coffee")); 
JavaRDD<HappyPerson> happyPeopleRDD = sc.parallelize(peoplelist); 
SchemaRDD happyPeopleSchemaRDD = hiveCtx.applySchema(happyPeopleRDD, 
HappyPerson.class); 
happyPeopleSchemaRDD.registerTempTable("happy_people"); 


9.4 JDBC/ODBC 服 务 器 


Spark SQL 也 提供 JDBC 连接 支持 ， 这 对 于 让 商业 智能 (BI) 工具 连接 到 Spark 集群 上 以 
及 在 多 用 户 间 共享 一 个 集群 的 场景 都 非常 有 用 。JDBC 服务 器 作为 一 个 独立 的 Spark 驱动 
器 程序 运行 ， 可 以 在 多 用 户 之 间 共 享 。 任 意 一 个 客户 端 都 可 以 在 内 存 中 缓存 数据 表 ， 对 表 
进行 查询 。 SR 亲本 让 六 鸭 间 二 训 。 


Spark SQL 的 JDBC 服务 器 与 Hive 中 的 HiveServer2 相 一 致 。 由 于 使 用 了 Thrift 通信 协议 ， 它 也 
被 称 为 “Thrift server”"。 注 意 ，JDBC 服务 器 支持 需要 Spark 在 打开 Hive 支持 的 选项 下 编译 。 

















[E29 























服务 器 可 以 通过 Spark 目录 中 的 sbin/start-thriftserver.sh 启动 ( 见 例 9-31)。 这 个 
脚本 接受 的 参数 选项 大 多 与 spark-submit 相同 ( 见 7.3 节 )。 默 认 情 况 下 ， 服 务 器 会 








注 4: codegen 打开 时 ， 查询 有 可 能 会 变 慢 ， 因 为 Spark SQL 需要 动态 分 析 并 编译 代码 ， 因 此 ， 短 作业 并 不 人 
真正 体现 codegen 所 带 来 的 性 能 提升 。 一 一 译 者 注 








GCC 
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在 Locathost:16600 上 进行 监听 ， 我 们 可 以 通过 环境 变量 (HIVE_SERVER2_THRIFT_PORT 
和 HIVE_SERVER2_THRIFT_BIND_HOST) 修改 这 些 设置 ， 也 可 以 通过 Hive 配置 选项 (hive. 
server2.thrift.port 和 hive.server2.thrift.bind.host) 来 修改 。 你 也 可 以 通过 命令 行 参 
数 - -htiveconf property=value 来 设置 Hive 选项 。 











例 9-31: 局 动 JDBC 服务 器 


./sbin/start-thriftserver.sh --master sparkMaster 


Spark 也 自 带 了 Beeline 客户 端 程序 ， 我 们 可 以 使 用 它 连接 JDBC 服务 器 ， 如 例 9-32 和 图 
9-3 所 示 。 这 个 简易 的 SQL shell 可 以 让 我 们 在 服务 器 上 运行 命令 。 








例 9-32: 使 用 Beeline 连接 JDBC 服务 器 


holden@hmbp2:~/repos/spark$ ./bin/beeline -uy jdbc:hive2://LocaLhost:10000 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
scan complete in 1ms 

Connecting to jdbc:hive2://Llocalhost:10000 

Connected to: Spark SQL (version 1.2.0-SNAPSHOT) 

Driver: spark-assembly (version 1.2.0-SNAPSHOT) 

Transaction isolation: TRANSACTION_REPEATABLE_READ 

Beeline version 1.2.0-SNAPSHOT by Apache Hive 

0: jdbc:hive2://LocaLhost:10000> show tables; 


+--------- 十 
| result | 
+--------- 十 
| pokes | 
+--------- 十 


1 row selected (1.182 seconds) 
0: jdbc:hive2://LocaLhost:10000> 





2 holden@hmbp2: ~/repos/spark 


holden@hmbp2: ~/repos/1230000000573 x | holden@hmbp2: ~/repos/spark x 
README .md 





make-distribution.sh 


holden@hmbp2:~/repos/spark$ ./sbin/start-thriftserver.sh --master local[*] 
starting org.apache.spark.sql.hive.thriftserver.HiveThriftServer2, logging to /h 
ome/holden/repos/spark/sbin/../logs/spark-holden-org.apache.spark.sql.hive.thrif 
tserver.HiveThriftServer2-1-hmbp2.out 

holden@hmbp2:~/repos/spark$ ./bin/beeline -yu jdbc:hive2://localhost:10000 

Spark assembly has been built with Hive, including Datanucleus jars on classpat 
scan complete in lms 

Connecting to jdbc:hive2://localhost:10000 


Connected to: Spark SQL (version 1.2.0-SNAPSHOT) 
Driver: spark-assembly (version 1.2.0-SNAPSHOT 
Transaction isolation: TRANSACTION REPEATABLE READ 
Beeline version 1.2.0-SNAPSHOT by Apache Hive 

0: jdbc:hive2://localhost:10000> show tables; 


1 row selected (1.473 seconds) 
6: jdbc:hive2://Locathost:10000> | 











图 9-3: 启动 JDBC 服务 器 并 使 用 Beeline 客户 端 连接 
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当局 动 JDBC 服务 器 时 ，JDBC 服务 器 会 在 后 台 运 行 并 且 将 所 有 输出 重 定向 
到 一 个 日 志文 件 中 。 如 果 你 在 使 用 JDBC 服务 器 进行 查询 的 过 程 中 遇 到 了 问 
题 ， 可 以 查看 日 志 寻 找 更 为 完整 的 报错 信息 。 








许多 外 部 工具 也 可 以 通过 ODBC 连接 Spark SQL。Spark SQL 的 ODBC 驱动 由 Simba 
(http://www.simba.com/) 制作 ， 可 以 从 很 多 Spark 供应 商 处 下 载 到 (比如 DataBricks 
Cloud、Datastax 以 及 MapR)。 它 经 常会 被 像 Microstrategy 或 Tableau 这 样 的 商务 智能 工 
有 具 所 用 到 ;你 可 以 查 一 查 如 何 把 你 的 工具 连接 到 Spark SQL 上 。 由 于 Spark SQL 使 用 了 和 
Hive 相同 的 查询 语言 以 及 服务 器 ， 大 多 数 可 以 连接 到 Hive 的 商务 智能 工具 也 可 以 通过 已 
有 的 Hive 连接 器 来 连接 到 Spark SQL 上 。 





9.4.1 使 用 Beeline 


在 Beeline 客户 端 中 ， 你 可 以 使 用 标准 的 HiveQL 命令 来 创建 、 列 举 以 及 查询 数据 表 。 你 可 
以 从 Hive 语言 手册 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual) 中 找 
到 关于 HiveQL 的 所 有 语法 细节 ， 这 里 只 展示 一 些 常 见 的 操作 。 


首先 ， 要 从 本 地 数据 创建 一 张 数据 表 ， 可 以 使 用 CREATE TABLE 命令。 然后 使 用 LOAD DATA 
命令 进行 数据 读 取 。Hive 支持 读 取 带 有 固定 分 隔 符 的 文本 文件 ， 比 如 CSV 等 格式 的 文件 
如 例 9-33 所 示 。 


例 9-33: 读 取 数 据 表 
> CREATE TABLE IF NOT EXISTS mytable (key INT, value STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY “，; 
> LOAD DATA LOCAL INPATH ‘learning-spark-examples/files/int_string.csv’ 
INTO TABLE mytable; 














要 列举 数据 表 ， 可 以 使 用 SHOW TABLES 语句 (如 例 9-34 所 示 )。 你 也 可 以 通过 DESCRIBE 
tableName 查看 每 张 表 的 结构 信息 。 


例 9-34: 列举 数据 表 
> SHOW TABLES; 


mytable 
Time taken: 0.052 seconds 





如 果 你 想 要 缓存 数据 表 ， 使 用 CACHE TABLE tableName 语句 。 缓 存 之 后 你 可 以 使 用 UNCACHE 
TABLE tableName 命令 取消 对 表 的 缓存 。 需 要 注意 的 是 ， 之 前 也 提 到 过 ， 缓 存 的 表 会 在 这 
个 JDBC 服务 器 上 的 所 有 客户 端 之 间 共 享 。 


后 ， 在 Beeline 中 查看 查询 计划 很 简单 ， 对 查询 语句 运行 EXPLAIN 即 可 ， 如 例 9-35 所 示 。 
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例 9-35: Spark SQL shell 执行 EXPLAIN 


spark-sql> EXPLAIN SELECT * FROM mytable where key = 1; 

== Physical Plan == 

Filter (key#16 = 1) 

HiveTableScan [key#16,value#17], (MetastoreRelation default, mytable, None), None 
Time taken: 0.551 seconds 


对 于 这 个 查询 计划 来 说 ，Spark SQL 在 一 个 HiveTabtescan 布点 上 使 用 了 筛选 操作 。 


在 这 里 ， 你 也 可 以 直接 写 SQL 语句 对 数据 进行 查询 。Beeline shell 对 于 在 多 用 户 间 共享 的 
缓存 数据 表 上 进行 快速 的 数据 探索 是 非常 有 用 的 。 


9.4.2 长 生命 周期 的 表 与 查询 

使 用 Spark SQL 的 JDBC 服务 器 的 优点 之 一 就 是 我 们 可 以 在 多 个 不 同 程序 之 间 共 享 缓存 下 
来 的 数据 表 。JDBC Thrift 服务 器 是 一 个 单 驱动 器 程序 ， 这 就 使 得 共享 成 为 了 可 能 。 如 前 一 
节 中 所 述 ， 你 只 需要 注册 该 数据 表 并 对 其 运行 CACHE 命令 ， 就 可 以 利用 缓存 了 。 




















Spark SQL 独立 shell 














除了 JDBC 服务 器 ，Spark SQL 也 支持 一 个 可 以 作为 单独 的 进程 使 用 的 简易 
shell， 可 以 通过 ./bin/spark-sql 启动 。 这 个 shell 会 连接 到 你 设置 在 conf/hive- 
site.xml 中 的 Hive 的 元 数据 仓 。 如 果 不 存在 这 样 的 元 数据 仓 ，Spark SQL 也 
会 在 本 地 新 建 一 个 。 这 个 脚本 主要 对 于 本 地 开发 比较 有 用 。 在 共享 的 集群 
上 ， 你 应 该 使 用 JDBC 服务 器 ， 让 各 用 户 通过 beeLine 进行 连接 。 

















m= ~ 米 
9.5 用 户 自 定义 函数 
用 户 自 定义 函数 ， 也 叫 UDF， 可 以 让 我 们 使 用 Python/Java/Scala 注册 自 定义 函数 ， 并 在 SQL 
中 调用 。 这 种 方法 很 常用 ， 通 常用 来 给 机 构 内 的 SQL 用 户 们 提供 高 级 功能 支持 ， 这 样 这 些 
用 户 就 可 以 直接 调用 注册 的 函数 而 无 需 自 己 去 通过 编程 来 实现 了 。 在 Spark SQL 中 ， 编 写 
UDF 尤为 简单 。Spark SQL 不 仅 有 自己 的 UDF 接口 ， 也 支持 已 有 的 Apache Hive UDF。 








9.5.1 Spark SQL UDF 


我 们 可 以 使 用 Spark 支持 的 编程 语言 编写 好 函数 ， 然 后 通过 Spark SQL 内 建 的 方法 传递 进 
来 ， 非 常 便捷 地 注册 我 们 自己 的 UDF。 在 Scala 和 Python 中 ， 可 以 利用 语言 原生 的 函数 和 
lambda 语法 的 支持 ， 而 在 Java 中 ， 则 需要 扩展 对 应 的 UDF 类 。UDF 能 够 支持 各 种 数据 类 
型 ， 返 回 类 型 也 可 以 与 调用 时 的 参数 类 型 完全 不 一 样 。 











在 Python 和 Java 中 ， 还 需要 用 表 9-1 中 列 出 的 SchemaRDD 对 应 的 类 型 来 指定 返回 值 类 
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型 。Java 中 的 对 应 类 型 可 以 在 org.apache.spark.sqL.api.java.DataType 中 找到 ， 而 在 
Python 中 则 需要 导入 DataType 支持 。 


在 例 9-36 和 例 9-37 中 ， 我 们 可 以 看 到 一 个 用 来 计算 字符 串 长 度 的 非常 简易 的 UDF， 可 以 
用 它 来 计算 推 文 的 长 度 。 

例 9-36: Python 版 本 耳 采 字符 串 长 度 UDF 

# 写 一 个 求 字符 串 长 度 的 UDF 


hiveCtx.registerFunction("strLenPython"，Lambda x: len(x), IntegerType()) 
LengthSchemaRDD = hiveCtx.sql("SELECT strLenpython('text') FROM tweets LIMIT 10") 














例 9-37: Scala 版 本 的 字符 串 长 度 UDF 


registerFunction("strLenScala", (_: String).length) 
val tweetLength = hiveCtx.sql("SELECT strLenScala('tweet') FROM tweets LIMIT 10") 





在 Java 中 定义 UDF 需要 一 些 额外 的 import 声明 。 和 在 定义 RDD 函数 时 一 样 ， 根 据 我 们 
要 实现 的 UDF 的 参数 个 数 ， 需 要 扩展 特定 的 类 ， 如 例 9-38 和 例 9-39 所 示 。 





例 9-38: Java UDF import 声明 
// 导入 UDF 函 数 类 以 及 数据 类 型 
// 注意 : 这 些 import 路 径 可 能 会 在 将 来 的 发 行 版 中 改变 
import org.apache.spark.sqL.api.java.UDF1; 
import org.apache.spark.sqL.types.DataTypes ; 





例 9-39: Java 版 本 的 字符 串 长 度 UDEF 
hiveCtx.udf().register("stringLength]Java" ，new UDF1<String，Integer>() { 
@Override 
public Integer call(String str) throws Exception { 
return str.length(); 


} 
}, DataTypes.IntegerType); 
SchemaRDD tweetLength = hiveCtx.sql( 
"SELECT stringLengthJava('text') FROM tweets LIMIT 10"); 
List<Row> Lengths = tweetLength.collect(); 
for (Row row : result) { 
System.out.println(row.get(0)); 


} 


9.5.2 Hive UDF 

Spark SQL 也 支持 已 有 的 Hive UDF。 标 准 的 Hive UDF 已 经 自动 包含 在 了 Spark SQL 中 。 如 
果 需 要 支持 自 定义 的 Hive UDF， 我 们 要 确保 该 UDF 所 在 的 JAR 包 已 经 包含 在 了 应 用 中 。 需 
要 注意 的 是 ， 如 果 使 用 的 是 JDBC 服务 器 ， 也 可 以 使 用 --jars 命令 行 标 记 来 添加 JAR。 开 
发 Hive UDF 不 在 本 书 的 讨论 范围 之 中 ， 所 以 我 们 只 会 介绍 一 下 如 何 使 用 已 有 的 Hive UDF。 




















Ce 





要 使 用 Hive UDF， 应 该 使 用 HiveContext， 而 不 能 使 用 常规 的 SQLContext。 要 注册 一 个 
Hive UDF， 只 需 调 用 hiveCtx.sql("CREATE TEMPORARY FUNCTION name AS class.function")。 
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9.6 Spark SQL 性 能 





就 像 本 章 开头 所 说 的 那样 ，Spark SQL 提供 的 高 级 查询 语言 及 附加 的 类 型 信息 可 以 使 Spark 


SQL 数据 查询 更 加 高 效 。 





Spark SQL 不 仅 是 给 熟悉 SQL 的 用 户 使 用 的 。Spark SQL 使 有 条 人 人 








F 的 聚合 操作 变 


得 非常 容 


易 ， 比 如 对 多 个 列 进行 求 值 (如 例 9-40 所 示 )。 利 用 Spark SQL 则 不 再 需要 像 第 6 章 中 讨 











论 的 那样 


i 





建 一 些 特殊 的 对 象 来 进行 这 种 操作 。 





例 9-40: Spark SQL 多 列 求 和 


SELECT SUM(user.favouritesCount), SUM(retweetCount), user.id FROM tweets 


GROUP BY user .id 





Spark SQL 可 以 利用 其 对 类 型 的 了 解 来 高 效 地 表示 数据 。 当 缓存 数据 时 ，Spark SQL 使 用 
内 存 式 的 列 式 存储 。 这 不 仅仅 节约 了 缓存 的 空间 ， 而 且 尽 可 能 地 减少 了 后 续 查 询 中 针对 某 


几 个 字段 查询 时 的 数据 读 取 。 





谓词 下 推 可 以 让 Spark SQL 将 查询 中 的 一 些 部 分 工作 “下 移 ” 到 查询 引擎 上 。 如 果 我 们 


只 需 在 Spark 中 读 取 某 些 特定 的 记录 ， 标 准 的 方法 是 读 入 整个 数据 集 ， 








然后 在 上 面 执行 得 











选 条 件 。 然 而 ， 在 Spark SQL 中 ， 如 果 底 层 的 数据 存储 支持 只 读 取 键 值 在 一 个 范围 内 的 记 
录 ， 或 是 其 他 某 些 限 制 条 件 ，Spark SQL 就 可 以 把 查询 语句 中 的 筛选 限制 条 件 推 到 数据 存 








储 层 ， 从 而 大 大 减少 需要 读 取 的 数据 。 
性 能 调 优选 项 
Spark SQL 的 性 能 调 优 选项 有 很 多 ， 见 表 9-2 所 列 。 


表 9-2: Spark SQL 中 的 性 能 选项 
选项 默认 值 


用 途 








spark.sql.codegen false 


spark.sql.inMemoryColumnarStorage.compressed false 


spark.sql.inMemoryColumnarStorage.batchSize 1000 


spark.sql.parquet.compression.codec snappy 


设 为 true 时 ，Spark SQL 会 把 每 条 查询 语 
句 在 运行 时 编译 为 Java 二 进 制 代码 。 这 可 
以 提高 大 型 查询 的 性 能 ， 但 在 进行 小 规模 








查询 时 会 变 慢 


自动 对 内 存 中 的 列 式 存储 进行 压缩 
列 式 缓存 时 的 每 个 批 处 理 的 大 小 。 把 这 个 








值 调 大 可 能 会 导致 内 存 不 够 的 异 


而 


使 用 哪 种 压缩 编码 器 。 可 选 的 选项 包括 





uncompressed/snappy/gzip/\lzo 


使 用 JDBC 连接 接口 和 Beeline shell 时 ， 可 以 通过 set 命令 设置 包括 这 些 性 能 选项 在 内 的 





各 种 选项 ， 如 例 9-41 所 示 。 








例 9-41: 打开 codegen 选项 的 Beeline 命令 


beeline> set spark.sql.codegen=true; 
SET spark.sqL.codegen=true 
spark.sql.codegen=true 

Time taken: 1.196 seconds 


在 一 个 传统 的 Spark SQL 应 用 中 ， 可 以 在 Spark 配置 中 设置 这 些 Spark 属性 ， 如 例 9-42 所 示 。 





例 9-42: 在 Scala 中 打开 codegen 选项 的 代码 


conf.set("spark.sql.codegen", "true") 


一 些 选 项 的 配置 需要 给 予 特别 的 考量 。 第 一 个 是 spark.sql.codegen， 这 个 选项 可 以 让 
Spark SQL 把 每 条 查询 语句 在 运行 前 编译 为 Java 二 进 制 代码 。 由 于 生成 了 专门 运行 指定 查 
询 的 代码 ，codegen 可 以 让 大 型 查询 或 者 频繁 重复 的 查询 明显 变 快 。 然 而 ， 在 运行 特别 快 
(1 ~ 2 秒 ) 的 即时 查询 语句 时 ，codegen 有 可 能 会 增加 额外 开销 ， 因 为 codegen 需要 让 每 
条 查询 走 一 遍 编译 的 过 程 。*codegen 还 是 一 个 试验 性 的 功能 ， 但 是 我 们 推荐 在 所 有 大 型 的 
或 者 是 重复 运行 的 查询 中 使 用 codegen。 








调 优 时 可 能 需要 考虑 的 第 二 个 选项 是 spark.sql.inMemoryColumnarStorage.batchsize。 在 
缓存 SchemaRDD 时 ，Spark SQL 会 按照 这 个 选项 制定 的 大 小 (默认 值 是 1000) 把 记录 分 
组 ， 然 后 分 批 压缩 。 太 小 的 批 处 理 大 小 会 导致 压缩 比 过 低 ， 而 批 处 理 大 小 过 大 的 话 ， 比 如 
当 每 个 批 次 处 理 的 数据 超过 内 存 所 能 容纳 的 大 小 时 ， 也 有 可 能 会 引发 问题 。 如 果 你 表 中 的 
记录 比较 大 〈 包 含 数 百 个 字段 或 者 包含 像 网 页 这 样 非常 大 的 字符 串 字 段 )， 你 就 可 能 需要 
调 低 批 处 理 大 小 来 避免 内 存 不 够 (OOM) 的 错误 。 如 果 不 是 在 这 样 的 场景 下 ， 默 认 的 批 处 
理 大 小 是 比较 合适 的 ， 因 为 压缩 超过 1000 条 记录 时 也 基本 无 法 获得 更 高 的 压缩 比 了 。 






































9.7 总 结 


现在 ， 我 们 学 完了 Spark 利用 Spark SQL 进行 结构 化 和 半 结 构 化 数据 处 理 的 方式 。 除 了 本 
章 探索 过 的 查询 语句 ， 第 3 章 到 第 6 章 中 讲 到 的 操作 RDD 的 方法 同样 适用 于 Spark SQL 
中 的 SchemaRDD。 很 多 时 候 ， 我 们 会 把 SQL 与 其 他 的 编程 语言 结合 起 来 使 用 ， 以 充分 利 
用 SQL 的 简洁 性 和 编程 语言 擅长 表达 复杂 逻辑 的 优点 。 而 在 使 用 Spark SQL 时 ，Spark 执 
行 引 擎 也 能 根据 数据 的 结构 信息 对 查询 进行 优化 ， 让 我 们 从 中 获 益 。 
























































注 5: 注意 , codegen 打开 时 最 开始 的 几 条 查询 会 格外 慢 , 因为 Spark SQL 需要 初始 化 它 的 编译 器 。 所 以 在 测 
试 codegen 的 额外 开销 之 前 你 应 该 先 运 行 4 ~ 5 条 查询 语句 。 
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Spark Streaming 





许多 应 用 需要 即时 处 理 收 到 的 数据 ， 例 如 用 来 实时 追踪 页 面 访问 统计 的 应 用 、 训 练 机 器 学 
习 模 型 的 应 用 ， 还 有 自动 检测 异常 的 应 用 。Spark Streaming 是 Spark 为 这 些 应 用 而 设计 的 
模型 。 它 允许 用 户 使 用 一 套 和 批 处 理 非常 接近 的 API 来 编写 流 式 计算 应 用 ， 这 样 就 可 以 大 
量 重用 批 处 理应 用 的 技术 甚至 代码 。 








和 Spark 基于 RDD 的 概念 很 相似 ，Spark Streaming 使 用 离散 化 流 (discretized stream) 作 
为 抽象 表示 ， 叫 作 DStream。DStream 是 随时 间 推 移 而 收 到 的 数据 的 序列 。 在 内 部 ， 每 个 
时 间 区 间 收 到 的 数据 都 作为 RDD 存在 ， 而 DStream 是 由 这 些 RDD 所 组 成 的 序列 (因此 
得 名 “离散 化 ”)。DStream 可 以 从 各 种 输入 源 创建 ， 比 如 Flume、Kafka 或 者 HDFS。 创 
建 出 来 的 DStream 支持 两 种 操作 ， 一 种 是 转化 操作 (transformation)， 会 生成 一 个 新 的 
DStream， 另 一 种 是 输出 操作 (output operation)， 可 以 把 数据 写 入 外 部 系统 中 。DStream 
提供 了 许多 与 RDD 所 支持 的 操作 相 类 似 的 操作 支持 ， 还 增加 了 与 时 间 相 关 的 新 操作 ， 比 
如 请 动 窗口 。 




















和 批 处 理 程序 不 同 ，Spark Streaming 应 用 需要 进行 额外 配置 来 保证 24/7 不 间断 工作 。 本 
章 会 讨论 检查 点 (checkpointing) 机 制 ， 也 就 是 把 数据 存储 到 可 靠 文件 系统 〈 比 如 HDFS) 
上 的 机 制 ， 这 也 是 Spark Streaming 用 来 实现 不 间断 工作 的 主要 方式 。 此 外 ， 还 会 讲 到 在 遇 
到 失败 时 如 何 重启 应 用 ， 以 及 如 何 把 应 用 设置 为 自动 重启 模式 。 








最 后 ， 就 Spark 1.1 来 说 ，Spark Streaming 只 可 以 在 Java 和 Scala 中 使 用 。 试 验 性 的 Python 
支持 在 Spark 1.2 中 引入 ， 不 过 只 支持 文本 数据 。 本 章 就 只 用 Java 和 Scala 来 展示 所 有 的 
API， 不 过 类 似 的 概念 对 Python 也 是 适用 的 。 
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10.1 一 个 简单 的 例子 


在 开始 讲解 Spark Streaming 的 细节 之 前 ， 让 我 们 先 来 看 一 个 简单 的 例子 。 我 们 会 从 一 台 
服务 器 的 7777 端口 上 收 到 一 个 以 换行 符 分 隔 的 多 行文 本 ， 要 从 中 秘 选 出 包含 单词 error 的 
行 ， 并 打印 出 来 。 


Spark Streaming 程序 最 好 以 使 用 Maven 或 者 sbt 编译 出 来 的 独立 应 用 的 形式 运行 。Spark 
Streaming 虽然 是 Spark 的 一 部 分 ， 它 在 Maven 中 也 以 独立 工件 的 形式 提供 ， 你 也 需要 在 
工程 中 添加 一 些 额外 的 import 声明 ， 如 例 10-1 至 例 10-3 所 示 。 














例 10-1: Spark Streaming 的 Maven 索引 


groupId = org.apache.spark 
artifactId = spark-streaming 2.10 
version = 1.2.0 


例 10-2: Scala 流 计算 import 声明 
import org.apache.spark.streaming.StreamingContext 
import org.apache.spark.streaming.StreamingContext._ 
import org.apache.spark.streaming.dstream.DStream 
import org.apache.spark.streaming.Duration 
import org.apache.spark.streaming.Seconds 


例 10-3: Java 流 计算 import 声明 
import org.apache.spark.streaming.api.java.JavaStreamingContext; 
import org.apache.spark.streaming.api.java.JavaDStreanm; 
import org.apache.spark.streaming.api.java.JavaPairDStream; 
import org.apache.spark.streaming.Duration; 
import org.apache.spark.streaming.Durations; 


让 我 们 从 创建 StreamingContext 开始 ， 它 是 流 计算 功能 的 主要 入 口 。StreamingContext 会 
在 底层 创建 出 SparkContext， 用 来 处 理 数 据 。 其 构造 函数 还 接收 用 来 指定 多 长 时 间 处 理 
一 次 新 数据 的 批 次 间隔 (batch interval) 作为 输入 ， 这 里 我 们 把 它 设 为 1 秒 。 接 着 ， 调 
用 socketTextstream() 来 创建 出 基于 本 地 7777 端口 上 收 到 的 文本 数据 的 DStream。 然 后 
把 DStream 通过 filter() 进行 转化 ， 只 得 到 包含 “error” 的 行 。 最 后 ， 使 用 输出 操作 
print() 把 一 些 筛选 出 来 的 行 打印 出 来 。( 如 例 10-4 和 例 10-5 所 示 。) 









































例 10-4: 用 Scala 进行 流 式 筛选 ， 打 印 出 包含 “error” 的 行 


// 从 SparkConf 创 建 StreamingContext 并 指定 1 秒 钟 的 批 处 理 大 小 
val ssc = new StreamingContext(conf, Seconds(1)) 


// 连接 到 本 地 机 器 7777 端 口上 后 ,使 用 收 到 的 数据 创建 pstream 
val lines = ssc.socketTextStream("localhost", 7777) 

// 从 DStrean 中 筛选 出 包含 字符 串 "error "的 行 

val errorLines = lines.filter(_.contains("error")) 


// 打印 出 有 "error" 的 行 


errorLines.print() 


























例 10-5: 用 Java 进行 流 式 筛选 ， 打 印 出 包含 “error” 的 行 
// 从 SparkConf 创 建 StreamingContext 并 指定 1 秒 钟 的 批 处 理 大 小 
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1)); 
// 以 端口 7777 作 为 输入 来 源 创 建 DStream 
JavaDStream<String> lines = jssc.socketTextStream("localhost", 7777); 
// 从 DStream 中 筛选 出 包含 字符 串 "error" 的 行 
JavaDStream<String> errorLines = lines.filter(new Function<String, Boolean>() { 
public Boolean call(String line) { 
return line.contains("error"); 











中间 部 出 有 "error" 的 和 

errorLines.print(); 
这 只 是 设 定好 了 要 进行 的 计算 ， 系 统 收 到 数据 时 计算 就 会 开始 。 要 开始 接收 数据 ， 必 须 
显 式 调用 StreamingContext 的 start() 方法 。 这 样 ，Spark Streaming 就 会 开始 把 Spark 作 
业 不 断交 给 下 面 的 SparkContext 去 调度 执行 。 执 行 会 在 另 一 个 线程 中 进行 ， 所 以 需要 调用 
awaitTermination 来 等 待 流 计算 完成 ， 来 防止 应 用 退出 。( 见 例 10-6 和 例 10-7。) 














例 10-6: 用 Scala 进行 流 式 筛选 ， 打 印 出 包含 “error” 的 行 


// 启动 流 计算 环境 StreamingContext 并 等 待 它 "完成 " 
ssc.start() 
// 等 待 作业 完成 


ssc.awaitTermination() 











例 10-7: 用 Java 进行 流 式 筛选 ， 打 印 出 包含 “error” 的 行 


// 启动 流 计算 环 境 StreamingContext 并 等 待 它 " 完 成 " 
jssc.start(); 
// 等 待 作业 完成 


jssc.awaitTermination(); 














请 注意 ,一 个 Streaming context 只 能 启动 一 次 ， 所 以 只 有 在 配置 好 所 有 DStream 以 及 所 需 
要 的 输出 操作 之 后 才能 启动 。 


现在 我 们 有 了 一 个 简易 的 流 计 算 应 用 ， 让 我 们 来 运行 它 ， 如 例 10-8 所 示 。 
例 10-8: 在 Linux/Mac 操作 系统 上 运行 流 计算 应 用 并 提供 数据 


$ spark-submit --class com.oreilly.learningsparkexamples.scala.StreamingLogInput \ 
$ASSEMBLY_JAR local[4] 


$ nc localhost 7777 # 使 你 可 以 键入 输入 的 行 来 发 送 给 服务 器 

< 此 处 是 你 的 输入 > 
Windows 用 户 可 以 使 用 ncat (http://nmap.org/ncat/) 命令 来 替代 这 里 的 nc 命令 。ncat 是 
nmap (http://nmap.org/) 工具 的 一 部 分 。 


接 下 来 我 们 会 把 这 个 例子 加 以 扩展 以 处 理 Apache 日 志文 件 。 如 果 你 需要 生成 一 些 假 的 日 
志 ， 可 以 运行 本 书 Git 仓库 中 的 脚本 ./bin/fakelogs.sh 或 者 ./bin/fakelogs.cmd 来 把 日 
志 发 给 7777 端口 。 
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10.2 架构 与 抽象 


Spark Streaming 使 用 “ 微 批 次 ”的 架构 ， 把 流 式 计算 当 作 一 系列 连续 的 小 规模 批 处 理 来 对 
待 。Spark Streaming 从 各 种 输入 源 中 读 取 数据 ， 并 把 数据 分 组 为 小 的 批 次 。 新 的 批 次 按 均 
匀 的 时 间 间 隔 创 建 出 来 。 在 每 个 时 间 区 间 开 始 的 时 候 ， 一 个 新 的 批 次 就 创建 出 来 ， 在 该 区 
间 内 收 到 的 数据 都 会 被 添加 到 这 个 批 次 中 。 在 时 间 区 间 结 束 时 ， 批 次 停止 增长 。 时 间 区 间 
的 大 小 是 由 批 次 间隔 这 个 参数 决定 的 。 批 次 间隔 一 般 设 在 500 毫秒 到 几 秒 之 间 ， 由 应 用 开 
发 者 配置 。 每 个 输入 批 次 都 形成 一 个 RDD， 以 Spark 作业 的 方式 处 理 并 生成 其 他 的 RDD。 
处 理 的 结果 可 以 以 批 处 理 的 方式 传 给 外 部 系统 。 高 层次 的 架构 如 图 10-1 所 示 。 






















































































Spark Streaming 





被 推 向 外 部 
系统 的 结果 





输入 数据 流 











10-1: Spark Streaming 的 高 层次 架构 


我 们 已 经 讲 到 过 ，Spark Streaming 的 编程 抽象 是 离散 化 流 ， 也 就 是 DStream (如 图 10-2 所 
示 )。 它 是 一 个 RDD 序列 ， 每 个 RDD 代表 数据 流 中 一 个 时 间 片 内 的 数据 。 


时 间 1 的 数据 | | 时 间 2 的 数据 | | 时 间 3 的 数据 | | 时 间 4 的 数据 
二 一 一 于 一 一 一 中 
0 1 2 3 4 


10-2: DStream 是 一 个 持续 的 RDD 序列 























你 可 以 从 外 部 输入 源 创建 DStream， 也 可 以 对 其 他 DStream 应 用 进行 转化 操作 得 到 新 的 
DStream。DStream 支持 许多 第 3 章 中 所 讲 到 的 RDD 支持 的 转化 操作 。 另 外 ，DStream 还 有 
“有 状态 ”的 转化 操作 ， 可 以 用 来 聚合 不 同时 间 片 内 的 数据 。 我 们 会 在 后 面 几 节 进 一 步 讲 解 。 


在 列举 的 简单 的 例子 中 ， 我 们 以 从 套 接 字 中 收 到 的 数据 创建 出 DStream， 然 后 对 其 应 用 
filter() 转化 操作 。 这 会 在 内 部 创建 出 如 图 10-3 所 示 的 RDD。 

















如 果 运 行 例 10-8， 你 会 看 到 与 例 10-9 所 示 近 似 的 输出 。 





例 10-9: 运行 例 10-8 的 日 志 输 出 


71.19.157.174 - - [24/Sep/2014:22:26:12 +0000] "GET /error78978 HTTP/1.1" 404 505 
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Time: 1413833675000 ms 


71.19.164.174 - - [24/Sep/2014:22:27:10 +0000] "GET /error78978 HTTP/1.1" 404 505 













服务 器 运行 于 
localhost:7777 


用 换行 符 
隔 开 的 文本 


























行 ”._ | 从 时 间 0 到 |」 从 时 间 1 到 | | 从 时 间 2 到 | | 从 时 间 3 到 |__ > 
Dstream 。 | 时 间 1 的 数据 | | 时 间 2 的 数据 | | 时 间 3 的 数据 | | 时 间 4 的 数据 
转化 操 
作 filter 
错误 行 | 从 时 间 0 到 | 从 时 间 ] 到 | | 从 时 间 2 到 | | 从 时 间 3 到 | 人 
Dstream | 时 间 1 的 错误 行 | | 时 间 2 的 错误 行 | | 时 间 3 的 错误 行 | | 时 间 4 的 错误 行 











图 10-3: 例 10-4 至 例 10-8 中 的 DStream 及 其 转化 关系 


这 样 的 输出 清晰 地 展示 了 Spark Streaming 的 微 批 次 架构 。 我 们 可 以 看 到 筛选 过 的 日 志 每 秒 
钟 都 被 打印 一 次 ， 这 是 因为 我 们 创建 StreamingContext 时 设 定 的 批 次 间隔 为 1 秒 。Spark 用 
户 界面 也 显示 Spark Streaming 执行 了 许多 小 规模 作业 ， 如 图 10-4 所 示 。 


























eee NetworkWordCount - Spa x mI 
所 C0 localhost:4040/stages/ 六 OO 册 入 志 让 D. 旷 四 加 图 四 三 
Reload this page 
Spa 到 a Jobs Stages Storage Environment Executors Streaming NetworkWordCount application UI! 
Spark Stages (for all jobs) 
Total Duration: 35 min 
Scheduling Mode: FIFO 
Active Stages: 1 
Completed Stages: 6309 
Failed Stages: 0 
Active Stages (1) 
Stage Tasks: Shuffle 。 Shuffle 
Id Description Submitted Duration Succeeded/Total Input Output Read Write 
0 start at NetworkWordCount.scala:56 +details (ki 2015/01/13 35 min o1 
16:03:50 
Completed Stages (6309) 
Stage Tasks: Shuffle Shuffle 
Id Description Submitted Duration Succeeded/Total 。 Input Output Read Write 
12618 print at NetworkWordCount.scala:55 +details 2015/01/13 1ms 3/3. 
16:38:52 
12616 print at NetworkWordCount.scala:55 +details 2015/01/13 1ms 414 
16:38:52 
12614 print at NetworkWordCount.scala:55 +details 2015/01/13 1ms 104 
16:38:52 
12612 print at NetworkWordCount.scala:55 +details 2015/01/13 1ms \ 3/3. 
16:38:51 
12610 ”print at NetworkWordCount scala55 +details 2015/01/13 1ms 414. 
16:38:51 
Hocalhost4040/stages/ +details 2015/01/13 1ms DY 











10-4: 运行 流 计算 作业 时 的 Spark 应 用 用 户 界面 
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除了 转化 操作 以 外 ，DStream 还 支持 输出 操作 ， 比 如 在 示例 中 使 用 的 print()。 输 出 操作 
和 RDD 的 行动 操作 的 概念 类 似 。Spark 在 行动 操作 中 将 数据 写 和 人 外 部 系统 中 ， 而 Spark 
Streaming 的 输出 操作 在 每 个 时 间 区 间 中 周期 性 执行 ， 每 个 批 次 都 生成 输出 。 








Spark Streaming 在 Spark 的 驱动 器 程序 一 工作 节点 的 结构 的 执行 过 程 如 图 10-5 所 示 ( 参 
照 本 书 前 面 在 图 2-3 中 对 Spark 组 成 部 分 的 描述 )。Spark Streaming 为 每 个 输入 源 启 动 对 
应 的 接收 器 。 接 收 器 以 任务 的 形式 运行 在 应 用 的 执行 器 进程 中 ， 从 输入 源 收 集 数据 并 保 
存 为 RDD。 它 们 收集 到 输入 数据 后 会 把 数据 复制 到 另 一 个 执行 器 进程 来 保障 容错 性 ( 默 
认 行 为 )。 数 据 保 存在 执行 器 进程 的 内 存 中 ， 和 缓存 RDD 的 方式 一 样 '。 了 驱动 器 程序 中 的 
StreamingContext 会 周期 性 地 运行 Spark 作业 来 处 理 这 些 数据 ， 把 数据 与 之 前 时 间 区 间 中 的 
RDD 进行 整合 。 









































驱动 器 程序 RN ; 
, 和 和 上 接收 证 输入 数据 流 
] 


用 来 处 理 所 数据 备份 到 另 
收 到 数据 的 | 一 工作 节点 上 
Spark 作 业 


95parkContext “ 思 


























用 来 处 理 鲁 2 在 每 个 批 次 
所 收 到 数 中 输出 结果 
据 的 任务 














10-5: Spark Streaming 在 Spark 各 组 件 中 的 执行 过 程 











Spark Streaming 对 DStream 提供 的 容错 性 与 Spark 为 RDD 所 提供 的 容错 性 一 致 : 只 要 输 
入 数据 还 在 ， 它 就 可 以 使 用 RDD 谱系 重 算出 任意 状态 (比如 重新 执行 处 理 输入 数据 的 操 
作 )。 默 认 情 况 下 ， 收 到 的 数据 分 别 存在 于 两 个 节点 上 ， 这 样 Spark 可 以 容忍 一 个 工作 节点 
的 故障 。 不 过 ， 如 果 只 用 谱系 图 来 恢复 的 话 ， 重 算 有 可 能 会 花 很 长 时 间 ， 因 为 需要 处 理 从 
程序 启动 以 来 的 所 有 数据 。 因 此 ，Spark Streaming 也 提供 了 检查 点 机 制 ， 可 以 把 状态 阶段 
性 地 存储 到 可 靠 文件 系统 中 (例如 HDFS 或 者 S3)。 一 般 来 说 ， 你 需要 每 处 理 5-10 个 批 次 
的 数据 就 保存 一 次 。 在 恢复 数据 时 ，Spark Streaming 只 需要 回溯 到 上 一 个 检查 点 即 可 。 
























































接 下 来 会 详细 探究 Spark Streaming 中 的 转化 操作 、 输 出 操作 ， 以 及 各 种 输入 源 。 然 后 ， 我 
们 会 回 到 容错 性 和 检查 点 机 制 ， 讨 论 如 何 为 24/7 不 间断 运行 配置 程序 。 








注 1: 在 Spark 1.2 中 ,接收 器 也 可 以 把 数据 备份 到 HDFS 上 。 而 且 ， 对 于 一 些 输入 源 ， 比 如 HDFS， 天 生 就 
是 多 份 存储 ， 所 以 Spark Streaming 不 会 再 作 一 次 备份 。 
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10.3 转化 操作 


DStream 的 转化 操作 可 以 分 为 无 状态 (stateless) 和 有 状态 (stateful) 两 种 。 


。 在 无 状态 转化 操作 中 ， 每 个 批 次 的 处 理 不 依赖 于 之 前 批 次 的 数据 。 第 3 章 和 第 4 章 中 所 
讲 的 常见 的 RDD 转化 操作 ,例如 map() .filter() .reduceByKey() 等 ,都 是 无 状态 转化 操作 。 

。 相对 地 ， 有 状态 转化 操作 需要 使 用 之 前 批 次 的 数据 或 者 是 中 间 结 果 来 计算 当前 批 次 的 数 
据 。 有 状态 转化 操作 包括 基于 请 动 窗口 的 转化 操作 和 追踪 状态 变化 的 转化 操作 。 


10.3.1 无 状态 转化 操作 

无 状态 转化 操作 就 是 把 简单 的 RDD 转化 操作 应 用 到 每 个 批 次 上 ， 也 就 是 转化 DStream 
中 的 每 一 个 RDD。 部 分 无 状态 转化 操作 列 在 了 表 10-1 中 。 我 们 已 经 在 图 10-3 中 看 
到 了 fitter() 的 例子 。 第 3 章 和 第 4 章 讨 论 的 RDD 转化 操作 中 有 不 少 都 可 以 用 于 
DStream。 注 意 ， 针 对 键 值 对 的 DStream 转化 操作 (比如 reduceByKey()) 要 添加 import 
StreamingContext._ 才 能 在 Scala 中 使 用 。 和 RDD 一 样 ， 在 Java 中 需要 通过 mapToPair() 
创建 出 一 个 JavaPairpstream 才能 使 用 。 

















表 10-1: DStream 无 状态 转化 操作 的 例子 (不 完整 列表 ) 
























































用 来 操作 DStream[T] 
函数 名 称 目 的 Scala 示 例 的 用 户 自 定义 函数 的 
函数 签名 
map() 对 DStream 中 的 每 个 元 素 应 用 给 ds.map(x => x + 1) f: (T) -> 
定 函数 ， 返 回 由 各 元 素 输 出 的 元 
素 组 成 的 DStream。 
flatMap() 对 DStream 中 的 每 个 元 素 应 用 给 ds.flatMap(x => x.split(" ")) f: T -> Iterable[U] 
定 函数 ， 返 回 由 各 元 素 输 出 的 达 
代 器 组 成 的 DStream。 
filter() 返回 由 给 定 DStream 中 通过 饰 选 ds.filter(x => x != 1) f: T -> Boolean 
的 元 素 组 成 的 DStream。 
repartition() 改变 DStream 的 分 区 数 。 ds.repartition(10) N/A 
reduceByKey() 将 每 个 批 次 中 键 相 同 的 记录 归 约 。 ds.reduceByKey( f: T,T -> T 
(x, y) => x + y) 
groupByKey() ”将 每 个 批 次 中 的 记录 根据 键 分 组 。 ds.groupByKey() N/A 








需要 记 住 的 是 ， 尽 管 这 些 函 数 看 起 来 像 作用 在 整个 流 上 一 样 ， 但 事实 上 每 个 DStream 在 内 
部 是 由 许多 RDD ( 批 次 ) 组 成 ， 且 无 状态 转化 操作 是 分 别 应 用 到 每 个 RDD 上 的 。 例 如 ， 
reduceByKey() 会 归 约 每 个 时 间 区 间 中 的 数据 ， 但 不 会 归 约 不 同 区 间 之 间 的 数据 。 我 们 稍 
百 会 讲 的 有 状态 转化 操作 则 会 整合 不 同时 间 区 间 内 的 数据 。 


举 个 例子 ， 在 之 前 的 日 志 处 理 程序 中 ， 我 们 可 以 使 用 map() 和 reduceByKey() 在 每 个 时 间 
区 间 中 对 日 志 根 据 卫 地 址 进行 计数 ， 如 例 10-10 和 例 10-11 所 示 。 
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例 10-10: 在 Scala 中 对 DStream 使 用 map() 和 reduceByKkey() 


// 假设 ApacheAccessingLog 是 用 来 从 Apache 日 志 中 解析 条 目的 工具 类 

val _ accessLogDStream = LogData.map(Line => ApacheAccessLog.parseFromLogLine(Line)) 
val ipDStream = accessLogsDStream.map(entry => (entry.getIpAddress(), 1)) 

val ipCountsDStream = ipDStream.reduceByKey((x, y) => x + y) 




















人 0 





例 10-11: 在 Java 中 对 DStream 使 用 map() 和 reduceByKey() 


// 假设 ApacheAccessingLog 是 用 来 从 Apache 日 志 中 解析 条 目的 工具 类 
static final class IpTuple implements PairFunction<ApacheAccessLog, String, Long> { 
public Tuple2<String, Long> call(ApacheAccessLog log) { 
return new TupLe2<>(Log.getIpAddress()，1L); 
} 
} 




















人 0 





JavaDStream<ApacheAccessLog> accessLogsDStream = 
LogData.map(new ParseFromLogLine()); 

JavaPairDStream<String, Long> ipDStream = 
accessLogsDStream.mapToPair(new IpTuple()); 

JavaPairDStream<String, Long> ipCountsDStream = 
ipDStream.reduceByKey(new LongSumReducer()); 





无 状态 转化 操作 也 能 在 多 个 DStream 间 整 合 数据 ， 不 过 也 是 在 各 个 时 间 区 间 内 。 例 如 ， 键 
值 对 DStream 拥有 和 RDD 一 样 的 与 连接 相关 的 转化 操作 ， 也 就 是 join()、 
leftOuterJoin() 等 ( 见 4.3.3 节 )。 我 们 可 以 在 DStream 上 使 用 这 些 操作 ， 这 样 就 对 每 个 
批 次 分 别 执行 了 对 应 的 RDD 操作 。 


让 我 们 来 看 看 对 两 个 DStream 使 用 连接 的 一 个 具体 例子 。 在 例 10-12 和 例 10-13 中 ， 我 们 
以 IP 地 址 为 键 ， 把 请 求 计数 的 数据 和 传输 数据 量 的 数据 连接 起 来 。 




















例 10-12: 在 Scala 中 连接 两 个 DStream 


val ipBytesDStream = 

accessLogsDStream.map(entry => (entry.getIpAddress(), entry.getContentSize())) 
val ipBytesSumDStream = 

ipBytesDStream.reduceByKey((x, y) => x + y) 
val ipBytesRequestCountDStream = 

ipCountsDStream.join(ipBytesSumDStream) 





例 10-13: 在 Java 中 连接 两 个 DStream 


JavaPairDStream<String, Long> ipBytesDStream = 
accessLogsDStream.mapToPair(new IpContentTuple()); 

JavaPairDStream<String, Long> ipBytesSumDStream = 
ipBytesDStream.reduceByKey(new LongSumReducer()); 

JavaPairDStream<String, Tuple2<Long, Long>> ipBytesRequestCountDStream = 
ipCountsDStream.join(ipBytesSumDStream); 


我 们 还 可 以 像 在 常规 的 Spark 中 一 样 使 用 DStream 的 union() 操作 将 它 和 另 一 个 DStream 
的 内 容 合并 起 来 ， 也 可 以 使 用 StreamingContext.union() 来 合并 多 个 流 。 


， 如 果 这 些 无 状态 转化 操作 不 够 用 ，DStream 还 提供 了 一 个 叫 作 transform() 的 高 级 




















操作 符 ， 可 以 让 你 直接 操作 其 内 部 的 RDD。 这 个 transform() 操作 允许 你 对 DStream 提 
供 任意 一 个 RDD 到 RDD 的 函数 。 这 个 函数 会 在 数据 流 中 的 每 个 批 次 中 被 调用 ， 生 成 一 
个 新 的 流 。transform() 的 一 个 常见 应 用 就 是 重用 你 为 RDD 写 的 批 处 理 代码 。 例 如 ， 如 果 
你 有 一 个 叫 作 extractoutliers() 的 函数 ， 用 来 从 一 个 日 志 记 录 的 RDD 中 提取 出 异常 值 的 
RDD (可 能 通过 对 消息 进行 一 些 统计 )， 你 就 可 以 在 transform() 中 重用 它 ， 如 例 10-14 和 
例 10-15 所 示 。 



































例 10-14: 在 Scala 中 对 DStream 使 用 transform() 


val outlierDStream = accessLogsDStream.transform { rdd => 
extractOutliers(rdd) 


} 


例 10-15: 在 Java 中 对 DStream 使 用 transform() 
JavaPairDStream<String, Long> ipRawDStream = accessLogsDStream.transform( 
new Function<JavaRDD<ApacheAccessLog>, JavaRDD<ApacheAccessLog>>() { 
public JavapairRDD<ApacheAccessLog> call(JavaRDD<ApacheAccessLog> rdd) { 
return extractOutliers(rdd); 
上 
]); 
你 也 可 以 通过 StreamingContext.transform 或 DStream.transformWith(otherStream,，func) 


来 整合 与 转化 多 个 DStream。 


10.3.2 ”有 状态 转化 操作 

DStream 的 有 状态 转化 操作 是 跨 时 间 区 间 跟 踪 数 据 的 操作 ， 也 就 是 说 ， 一 些 先 前 批 次 的 数 
据 也 被 用 来 在 新 的 批 次 中 计算 结果 。 主 要 的 两 种 类 型 是 请 动 窗口 和 updateStateByKey( )， 
前 者 以 一 个 时 间 阶 段 为 请 动 窗口 进行 操作 ， 后 者 则 用 来 跟踪 每 个 键 的 状态 变化 〈 例 如 构建 
一 个 代表 用 户 会 话 的 对 象 ) 。 











有 状态 转化 操作 需要 在 你 的 StreamingContext 中 打开 检查 点 机 制 来 确保 容错 性 。 我 们 会 在 
10.6 节 中 更 详细 地 讨论 检查 点 机 制 ， 现 在 你 只 需要 知道 可 以 通过 传递 一 个 目录 作为 参数 给 
ssc.checkpoint() 来 打开 它 ， 如 例 10-16 所 示 。 








例 10-16: 设置 检查 点 
ssc.checkpoint("hdfs://...") 


进行 本 地 开发 时 ， 你 也 可 以 使 用 本 地 路 径 (例如 /mp) 取代 HDFS。 
基于 窗口 的 转化 操作 
基于 窗口 的 操作 会 在 一 个 比 StreamingContext 的 批 次 间隔 更 长 的 时 间 范 围 内 ， 通 过 整合 多 


个 批 次 的 结果 ， 计 算出 整个 窗口 的 结果 。 本 节 会 展示 如 何 使 用 这 种 转化 操作 来 跟踪 网 络 服 
务 器 访问 日 志 中 的 一 些 信 息 ， 比 如 常见 的 一 些 响 应 代码 、 内 容 大 小 ， 以 及 客户 端 类 型 。 
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所 有 基于 窗口 的 操作 都 需要 两 个 参数 ， 分 别 为 窗口 时 长 以 及 请 动 步 长 ， 两 者 都 必须 是 
StreamContext 的 批 次 间隔 的 整数 倍 。 窗 口 时 长 控制 每 次 计算 最 近 的 多 少 个 批 次 的 数据 ， 其 
实 就 是 最 近 的 windowDuration/batchInterval 个 批 次 。 如 果 有 一 个 以 10 秒 为 批 次 间隔 的 源 
DStream， 要 创建 一 个 最 近 30 秒 的 时 间 窗 口 ( 即 最 近 3 个 批 次 )， 就 应 当 把 windowDuration 
设 为 30 秒 。 而 滑动 步 长 的 默认 值 与 批 次 间隔 相等 ， 用 来 控制 对 新 的 DStream 进行 计算 的 
间隔 。 如 果 源 DStream 批 次 间隔 为 10 秒 ， 并 且 我 们 只 希望 每 两 个 批 次 计算 一 次 窗口 结果 ， 
就 应 该 把 滑动 步 长 设置 为 20 秒 。 图 10-6 展示 了 一 个 例子 。 









































对 DStream 可 以 用 的 最 简单 窗口 操作 是 window()， 它 返回 一 个 新 的 DStream 来 表示 所 请 
求 的 窗口 操作 的 结果 数据 。 换 名 话说 ，window() 生成 的 DStream 中 的 每 个 RDD 会 包含 多 个 
批 次 中 的 数据 ， 可 以 对 这 些 数据 进行 count()、transform() 等 操作 〈 见 例 10-17 和 例 10-18)。 














网 络 输入 数据 有 窗口 的 数据 流 
窗口 大 小 : 3 
滑动 步 长 : 2 





























t1 


t2 


1B3 


t4 


t5 


t6 











10-6: 一 个 基于 窗口 的 流 数据 ， 窗 口 时 长 为 3 个 批 次 ， 滑 动 步 长 为 2 个 批 次 ， 每 隔 2 个 批 次 就 对 
前 3 个 批 次 的 数据 进行 一 次 计算 


例 10-17: 如 何在 Scala 中 使 用 window() 对 窗口 进行 计数 
val accessLogsWindow = accessLogsDStream.window(Seconds(30), Seconds(10)) 
val windowCounts = accessLogsWindow.count() 


例 10-18: 如 何在 Java 中 使 用 window() 对 窗口 进行 计数 
JavaDStream<ApacheAccessLog> accessLogsWindow = accessLogsDStream.window( 
Durations.seconds(30), Durations.seconds(10)); 
JavaDStream<Integer> windowCounts = accessLogsWindow.count(); 

















尽管 可 以 使 用 window() 写 出 所 有 的 窗口 操作 ，Spark Streaming 还 是 提供 了 一 些 其 他 的 窗口 
操作 ， 让 用 户 可 以 高 效 而 方便 地 使 用 。 首 先 ，reduceByWindow() 和 reduceByKeyAndWwindow() 
让 我 们 可 以 对 每 个 窗口 更 高 效 地 进行 归 约 操作 。 它 们 接收 一 个 归 约 函数 ， 在 整个 窗口 上 执 
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行 ， 比 如 +。 除 此 以 外 ， 它 们 还 有 一 种 特殊 形式 ， 通 过 只 考虑 新 进入 窗口 的 数据 和 离开 窗 
口 的 数据 ， 让 Spark 增 量 计算 归 约 结果 。 这 种 特殊 形式 需要 提供 归 约 函数 的 一 个 逆 函 数 ， 比 
如 + 对 应 的 逆 函 数 为 -。 对 于 较 大 的 窗口 ， 提 供 逆 函数 可 以 大 大 提高 执行 效率 ( 见 图 10-7)。 
































网 络 输入 数据 基于 窗口 进行 网 络 输入 数据 基于 窗口 进行 有 逆 
普通 归 约 操作 的 归 约 





























10-7: 普通 的 reduceByWindow() 与 使 用 逆 函 数 的 增 量 式 reduceByWindow() 的 区 别 








在 日 志 处 理 的 例子 中 ， 我 们 可 以 使 用 这 两 个 国 数 来 更 高 效 地 对 每 个 卫 地 址 访问 量 进 行 计 
数 ， 如 例 10-19 和 例 10-20 所 示 。 





例 10-19: Scala 版 本 的 每 个 卫 地 址 的 访问 量 计数 


val ipDStream = acCessLogsDStream.map(LogEntry => (LogEntry.getIpAddress()，1)) 
val ipCountDStream = ipDStream.reduceByKeyAndWindow( 
{(x，y) => x + JJ，// 加 上 新 进入 窗口 的 批 次 中 的 元 素 
{(x，y) => x - y}，// 移 除 离开 窗口 的 老 批 次 中 的 元 素 
Seconds(30) ， // 窗口 时 长 
Seconds(10)) // 滑动 步 长 

















例 10-20: Java 版 本 的 每 个 IP 地 址 的 访问 量 计数 
class ExtractIp extends PairFunction<ApacheAccessLog, String, Long> { 
public Tuple2<String, Long> call(ApacheAccessLog entry) { 


return new Tuple2(entry.getIpAddress(), 1L); 
} 


class AddLongs extends Function2<Long, Long, Long>() { 
public Long call(Long v1, Long v2) { return v1 + v2; } 


class SubtractLongs extends Function2<Long, Long, Long>() { 
public Long call(Long v1, Long v2) { return v1 - v2; } 
} 


JavaPairDStream<String, Long> ipAddressPairDStream = accessLogsDStream.mapToPair( 
new ExtractIp()); 





Spark Streaming | 171 


JavaPairDStream<String, Long> ipCountDStream = ipAddressPairDStreanm. 
reduceByKeyAndWindow( 
new AddLongs()，// 加 上 新 进入 窗口 的 批 次 中 的 元 素 
new SubtractLongs() 
// 移 除 离开 窗口 的 老 批 次 中 的 元 素 
Durations.seconds(30)， // 窗口 时 长 
Durations.seconds(10)); // 请 动 步 长 




















最 后 ，DStream 还 提供 了 countByWindow() 和 countByValueAndwindow() 作为 对 数据 进行 
计数 操作 的 简写 。countByWindow() 返回 一 个 表示 每 个 窗口 中 元 素 个 数 的 DStream， 而 
countByValueAndWindow() 返回 的 DStream 则 包含 窗口 中 每 个 值 的 个 数 ， 如 例 10-21 和 例 
10-22 所 示 。 





例 10-21: Scala 中 的 窗口 计数 操作 
val ipDStream = accessLogsDStream.map{entry => entry.getIipAddress()} 


val ipAddressRequestCount = ipDStream.countByValueAndWindow(Seconds(30), Seconds(10)) 
val requestCount = accessLogsDStream.countByWindow(Seconds(30), Seconds(10)) 


例 10-22: Java 中 的 窗口 计数 操作 
JavaDStream<String> ip = accessLogsDStream.map( 
new Function<ApacheAccessLog, String>() { 
public String call(ApacheAccessLog entry) { 
return entry.getIpAddress(); 
}}); 
JavaDStream<Long> requestCount = accessLogsDStream.countByWindow( 
Dirations.seconds(30), Durations.seconds(10)); 
JavaPairDStream<String, Long> ipAddressRequestCount = ip.countByValueAndWindow( 
Dirations.seconds(30), Durations.seconds(10)); 


UpdateStateByKey 转 化 操作 

有 时 ， 我 们 需要 在 DStream 中 跨 批 次 维护 状态 〈 例 如 跟踪 用 户 访问 网 站 的 会 话 )。 针 对 这 
种 情况 ，updateStateByKey() 为 我 们 提供 了 对 一 个 状态 变量 的 访问 ， 用 于 键 值 对 形式 的 
DStream。 给 定 一 个 由 ( 键 ， 事件 ) 对 构成 的 DStream， 并 传递 一 个 指定 如 何 根据 新 的 事件 
更 新 每 个 键 对 应 状态 的 函数 ， 它 可 以 构建 出 一 个 新 的 DStream， 其 内 部 数据 为 〈 键 ， 状 态 ) 
对 。 例 如 ， 在 网 络 服务 器 日 志 中 ， 事 件 可 能 是 对 网 站 的 访问 ， 此 时 键 是 用 户 的 ID。 使 用 
updateStateByKey() 可 以 跟踪 每 个 用 户 最 近 访 问 的 10 个 页 面 。 这 个 列表 就 是 “状态 ”对 
象 ， 我 们 会 在 每 个 事件 到 来 时 更 新 这 个 状态 。 


要 使 用 updatestateByKkey()， 提 供 了 一 个 update(events，oldstate) 函数 ， 接 收 与 某 键 相关 
的 事件 以 及 该 键 之 前 对 应 的 状态 ， 返 回 这 个 键 对 应 的 新 状态 。 这 个 函数 的 签名 如 下 所 示 。 


。 events: 是 在 当前 批 次 中 收 到 的 事件 的 列表 (可 能 为 空 )。 

。 oldstate: 是 一 个 可 选 的 状态 对 象 ， 存 放 在 0ption 内 ， 如 果 一 个 键 没有 之 前 的 状态 ， 
这 个 值 可 以 空缺 。 

。 newState: 由 国 数 返回 ， 也 以 0ption 形式 存在 ， 我 们 可 以 返回 一 个 空 的 0ption 来 表示 


hl 






























































想 要 删除 该 状态 。 
updateStateByKey() 的 结果 会 是 一 个 新 的 DStream， 其 内 部 的 RDD 序列 是 由 每 个 时 间 区 间 
对 应 的 ( 键 ， 状 态 ) 对 组 成 的 。 





举 个 简单 的 例子 ， 使 用 updateStateByKey() 来 跟踪 日 志 消 息 中 各 HTTP 响应 代码 的 计数 。 这 
里 的 键 是 响应 代码 ， 状 态 是 代表 各 响应 代码 计数 的 整数 ， 事 件 则 是 页 面 访问 。 请 注意 ， 跟 之 
前 的 窗口 例子 不 同 的 是 ， 例 10-23 和 例 10-24 会 进行 自 程 序 启 动 开 始 就 “无 限 增长 ”的 计数 。 




















例 10-23: 在 Scala 中 使 用 updateSstateByKey() 运行 响应 代码 的 计数 


def updateRunningSum(vaLues: Seq[Long], state: Option[Long]) = { 
Some(state.getOrElse(0L) + values.size) 


} 


val responseCodeDStream = accessLogsDStream.map(log => (log.getResponseCode(), 1L)) 
val responseCodeCountDStream = responseCodeDStream.updateStateByKey(updateRunningSum _) 


例 10-24: 在 Java 中 使 用 updateStateByKey() 运行 响应 代码 的 计数 


class UpdateRunningSum implements Function2<List<Long>, 
Optional<Long>, Optional<Long>> { 
public Optional<Long> call(List<Long> nums, Optional<Long> current) { 
Long sum = current.or(0L); 
return Optional.of(sum + nums .stze()); 
} 
}; 


JavaPairDStream<Integer, Long> responseCodeCountDStream = accessLogsDStream.mapToPair( 
new PairFunction<ApacheAccessLog, Integer, Long>() { 
public Tuple2<Integer, Long> call(ApacheAccessLog log) { 
return new Tuple2(log.getResponseCode(), 1L); 


}) 
.UpdateStateByKey(new UpdateRunningSum()); 


10.4 输出 操作 


输出 操作 指定 了 对 流 数 据 经 转化 操作 得 到 的 数据 所 要 执行 的 操作 (例如 把 结果 推 入 外 部 数 
据 库 或 输出 到 屏幕 上 )。 











与 RDD 中 的 惰性 求 值 类 似 ， 如 果 一 个 DStream 及 其 派生 出 的 DStream 
都 没有 被 执行 输出 操作 ， 那 么 这 些 DStream 就 都 不 会 被 求 值 。 如 果 
StreamingContext 中 没有 设 定 输出 操作 ， 整 个 context 就 都 不 会 启动 。 














常用 的 一 种 调试 性 输出 操作 是 print()， 它 会 在 每 个 批 次 中 抓 取 DStream 的 前 十 个 元 素 打 
印 出 来 。 
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一 旦 调试 好 了 程序 ， 就 可 以 使 用 输出 操作 来 保存 结果 了 。Spark Streaming 对 于 DStream 有 
与 Spark 类 似 的 save() 操作 ， 它 们 接受 一 个 目录 作为 参数 来 存储 文件 ， 还 支持 通过 可 选 参 
数 来 设置 文件 的 后 级 名 。 每 个 批 次 的 结果 被 保存 在 给 定 目录 的 子 目 录 中 ， 且 文件 名 中 含有 
时 间 和 后 缀 名 。 我 们 可 以 把 IP 地 址 计数 保存 起 来 ， 如 例 10-25 所 示 。 











例 10-25: 在 Scala 中 将 DStream 保存 为 文本 文件 


ipAddressRequestCount.saveAsTextFiles("outputDir", "txt") 





还 有 一 个 更 为 通用 的 saveAsHadoopFiles() 函数 ， 接 收 一 个 Hadoop 输出 格式 作为 参数 。 例 
如 ，Spark Streaming 没有 内 建 的 saveAsSequenceFile() 图 数 ， 但 是 我 们 可 以 使 用 例 10-26 
和 例 10-27 中 的 方法 来 保存 SequenceFile 文件 。 





例 10-26: 在 Scala 中 将 DStream 保存 为 SequenceFile 


val writabLeIpAddressRequestCount = ipAddressRequestCount .map { 
(ip, count) => (new Text(ip), new LongWritable(count)) } 

writableIpAddressRequestCount.saveAsHadoopFiles[ 
SequenceFileOutputFormat[Text, LongWritable]]("outputDir", "txt") 


例 10-27: 在 Java 中 将 DStream 保存 为 SequenceFile 


JavaPairDStream<Text, LongWritable> writableDStream = ipDStream.mapToPair( 
new PairFunction<Tuple2<String, Long>, Text, LongWritable>() { 
public Tuple2<Text, LongWritable> call(Tuple2<String, Long> e) { 
return new Tuple2(new Text(e._1()), new LongWritable(e. 2())); 
}}); 
class OutFormat extends SequenceFileOutputFormat<Text, LongWritable> {}; 
writableDStream.saveAsHadoopFiles( 
"outputDir", "txt", Text.class, LongWritable.class, OutFormat.class); 








还 有 一 个 通用 的 输出 操作 foreachRDD()， 它 用 来 对 DStream 中 的 RDD 运行 任意 计 
人 transform() 有 些 类 似 ， 都 可 以 让 我 们 访问 任意 RDD。 在 foreachRDD() 中 ， 可 
以 重用 我 们 在 Spark 中 实现 的 所 有 行动 操作 。 比 如 ， 常见 的 用 例 之 一 是 把 数据 写 到 诸如 
MySQL 的 外 部 数据 库 中 。 对 于 这 种 操作 ，Spark 没有 提供 对 应 的 saveAs() 函数 ， 但 可 以 使 
用 RDD 的 eachPartition() 方法 来 把 它 写 出 去 。 为 了 方便 ，foreachRDD() 也 可 以 提供 给 我 
们 当前 批 次 的 时 间 ， 允 许 我 们 把 不 同时 间 的 输出 结果 存 到 不 同 的 位 置 。 参 见 例 10-28。 





























例 10-28: 在 Scala 中 使 用 foreachRDD() 将 数据 存储 到 外 部 系统 中 


ipAddressRequestCount .foreachRDD { rdd => 
rdd.foreachPartition { partition => 
// 打开 到 存储 系统 的 连接 (比如 一 个 数据 库 的 连接 ) 
partition.foreach { item => 
// 使 用 连接 把 item 存 到 系统 中 
} 
// 关闭 连接 
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10.5 输入 源 


Spark Streaming 原生 支持 一 些 不 同 的 数据 源 。 一 些 “ 核 心 ”数据 源 已 经 被 打包 到 Spark 
Streaming 的 Maven 工件 中 ， 而 其 他 的 一 些 则 可 以 通过 spark-streaming-kafka 等 附加 工件 
获取 。 


本 节 会 对 部 分 数据 源 进 行 一 些 概述 。 我 们 假定 你 已 经 安装 好 了 这 些 数据 源 ， 并 且 不 会 介绍 
这 些 系统 中 与 Spark 无 关 的 组 件 。 如 果 你 在 设计 一 个 新 的 应 用 ， 我 们 建议 你 从 使 用 HDFS 
或 Kafka 这 种 简单 的 输入 源 开 始 。 


10.5.1 核心 数据 源 
所 有 用 来 从 核心 数据 源 创建 DStream 的 方法 都 位 于 StreamingContext 中 。 我 们 已 经 在 示例 
中 用 过 其 中 一 个 套 接 字 。 这 里 再 讨论 两 个 ， 文 件 和 Akka actor。 


1. 文件 流 
因为 Spark 支持 从 任意 Hadoop 兼容 的 文件 系统 中 读 取 数据 ， 所 以 Spark Streaming 也 就 支 
持 从 任意 Hadoop 兼容 的 文件 系统 目录 中 的 文件 创建 数据 流 。 由 于 支持 多 种 后 端 ， 这 种 方 
式 广 为 使 用 ， 尤 其 是 对 于 像 日 志 这 样 始终 要 复制 到 HDFS 上 的 数据 。 要 让 Spark Streaming 
来 处 理 数据 ， 我 们 需要 为 目录 名 字 提 供 统一 的 日 期 格式 ， 文 件 也 必须 原子 化 创建 (比如 把 
文件 移入 Spark 监控 的 目录 )。? 可 以 修改 例 10-4 和 例 10-5 来 处 理 新 出 现在 一 个 目录 下 的 日 
志文 件 ， 如 例 10-29 和 例 10-30 所 示 。 













































































例 10-29: 用 Scala 读 取 目 录 中 的 文本 文件 流 


val LogData = ssc.textFileStream(logDirectory) 


例 10-30: 用 Java 读 取 目 录 中 的 文本 文件 流 


JavaDStream<String> LogData = jssc.textFileStream(logsDirectory); 





我 们 可 以 使 用 所 提供 的 ./bin/fakelogs_directory.sh 脚本 来 造 出 假日 志 。 如 果 有 真实 日 志 数 据 
的 话 ， 也 可 以 用 mv 命令 将 日 志文 件 循 环 移入 所 监控 的 目录 中 。 





除了 文本 数据 ， 也 可 以 读 入 任意 Hadoop 输入 格式 。 与 5.2.6 节 所 讲 的 一 样 ， 只 需要 将 
Key、Value 以 及 InputFormat 类 提供 给 Spark Streaming 即 可 。 例 如 ， 如 果 先 前 已 经 有 了 一 
个 流 处 理 作 业 来 处 理 日 志 ， 并 已 经 将 得 到 的 每 个 时 间 区 间 内 传输 的 数据 分 别 存储 成 了 一 个 
SequenceFile， 就 可 以 如 例 10-31 中 所 示 的 那样 来 读 取 数 据 。 


























注 2: 原子 化 表示 整个 操作 一 次 完成 。 如 果 Spark Streaming 将 要 处 理 文件 时 ， 更 多 的 数据 出 现 了 ，Spark 
Streaming 就 会 无 法 注意 到 新 添加 的 数据 ， 因 此 原子 化 在 这 里 很 重要 。 在 文件 系统 中 ， 文 件 重 命名 操 
作 一 般 是 原子 化 的 。 
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例 10-31: 用 Scala 读 取 目 录 中 的 SequenceFile 流 

ssc.fileStream[LongWritable, Intwritable, 

SequenceFileInputFormat[LongWritable, IntWritable]](inputDirectory).map { 

case (x, y) => (x.get(), y.get()) 
2. Akka actor 流 
另 一 个 核心 数据 源 接 收 器 是 actorStream， 它 可 以 把 Akka actor (http://akka.io/) 作为 数据 
流 的 源 。 要 创建 出 一 个 actor 流 ， 需 要 创建 一 个 Akka actor， 然 后 实现 org.apache.spark. 
streaming.receiver.ActorHelper 接口 。 要 把 输入 数据 从 actor 复制 到 Spark Streaming 中 ， 
需要 在 收 到 新 数据 时 调用 actor 的 store() 函数 。Akka actor 流 不 是 很 常见 ， 所 以 我 们 不 会 
对 其 进行 深入 探究 。 你 可 以 阅读 流 计算 的 文档 (http://spark.apache.org/docs/latest/streaming- 
custom-receivers.html) 以 及 Spark 中 的 ActorWordCount (https://github.com/apache/spark/ 




















blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/ActorWordCount. 


scala) 的 例子 来 学 习 如 何 使 用 它们 。 


10.5.2 ”附加 数据 源 

除 核心 数据 源 外 ， 还 可 以 用 附加 数据 源 接收 器 来 从 一 些 知 名 数据 获取 系统 中 接收 的 数据 ， 
这 些 接收 器 都 作为 Spark Streaming 的 组 件 进行 独立 打包 了 了。 它们 仍然 是 Spark 的 一 部 分 ， 
不 过 你 需要 在 构建 文件 中 添加 额外 的 包 才 能 使 用 它们 。 现 有 的 接收 器 包括 Twitter、Apache 
Kafka、Amazon Kinesis、Apache Flume， 以 及 ZeroMQ。 可 以 通过 添加 与 Spark 版 本 匹配 
的 Maven 工件 spark-streaming-[projectname]_2.19 来 引入 这 些 附加 接收 器 。 





1. Apache Kafka 

Apache Kafka (http://kafka.apache.org/) 因 其 速度 与 弹性 成 为 了 一 个 流行 的 输入 源 。 使 用 
Kafka 原生 的 支持 ， 可 以 轻松 处 理 许 多 主题 的 消息 。 在 工程 中 需要 引入 Maven 工件 spark- 
streaming-kafka_2.10 来 使 用 它 。 包 内 提供 的 KafkaUtils 对 象 可 以 在 StreamingContext 和 
JavaStreamingContext 中 以 你 的 Kafka 消息 创建 出 DStream。 由 于 KafkaUtils 可 以 订阅 多 
个 主题 ， 因 此 它 创 建 出 的 DStream 由 成 对 的 主题 和 消息 组 成 。 要 创建 出 一 个 流 数据 ， 需 
要 使 用 StreamingContext 实例 、 一 个 由 逗号 隔 开 的 ZooKeeper 主机 列表 字符 串 、 消 费 者 
组 的 名 字 (唯一 名 字 )， 以 及 一 个 从 主题 到 针对 这 个 主题 的 接收 器 线程 数 的 映射 表 来 调用 
createstream() 方法 (如 例 10-32 和 例 10-33 所 示 )。 


















































例 10-32: 在 Scala 中 用 Apache Kafka 订阅 Panda 主题 


import org.apache.spark.streaming.kafka._ 


// 创建 一 个 从 主题 到 接收 器 线程 数 的 映射 表 

val topics = List(("pandas", 1), ("logs", 1)).toMap 

val topicLines = KafkaUtils.createStream(ssc, zkQuorum, group, topics) 
StreamingLogInput.processLines(topicLines.map(_._2)) 











例 10-33: 在 Java 中 用 Apache Kafka 订阅 Panda 主题 


import org.apache.spark.streaming.kafka.*; 


// 创建 一 个 从 主题 到 接收 器 线程 数 的 映射 表 

Map<String, Integer> topics = new HashMap<String, Integer>(); 

topics.put("pandas", 1); 

topics.put("logs", 1); 

JavaPairDStream<String, String> input = 
KafkaUtils.createStream(jssc, zkQuorum, group, topics); 

input.print(); 


2. Apache Flume 
Spark 提供 两 个 不 同 的 接收 器 来 使 用 Apache Flume (http://flume.apache.org/， 见 图 10-8)。 
两 个 接收 器 简介 如 下 。 





。 推 式 接收 器 
该 接收 器 以 Avro 数据 池 的 方式 工作 ， 由 Flume 向 其 中 推 数据 。 

















。 拉 式 接收 器 
该 接收 器 可 以 从 自 定义 的 中 间 数 据 池 中 拉 数 据 ， 而 其 他 进程 可 以 使 用 Flume 把 数据 推进 
该 中 间 数 据 池 。 

两 种 方式 都 需要 重新 配置 Fume， 并 在 某 个 节点 配置 的 端口 上 运行 接收 器 〈 不 是 已 有 的 


Spark 或 者 Flume 使 用 的 端口 )。 要 使 用 其 中 任何 一 种 方法 ， 都 需要 在 工程 中 引入 Maven 
工件 spark-streaming-flume_2.10。 
























Flume 把 数据 
推 至 一 个 端 


Flume 把 数据 推 到 
自 定义 数据 池 中 

















从 数据 池 拉 取 数 据 











10-8: Flume 接收 器 选项 


3. 推 式 接收 器 

推 式 接收 器 的 方法 设置 起 来 很 容易 ， 但 是 它 不 使 用 事务 来 接收 数据 。 在 这 种 方式 中 ， 接 收 
器 以 Avro 数据 池 的 方式 工作 ， 我 们 需要 配置 Flume 来 把 数据 发 到 Avro 数据 季 ( 见 例 10- 
34) 。 我们 提供 的 FlumeUtils 对 象 会 把 接收 器 配置 在 一 个 特定 的 工作 节点 的 主机 名 及 端口 号 
上 ( 见 例 10-35 和 例 10-36)。 这 些 设置 必须 和 Flume 配置 相 匹配 。 
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例 10-34: Flume 对 Avro 池 的 配置 


al.sinks = avroSink 

al.sinks.avroSink.type = avro 

al.sinks.avroSink.channel = memoryChannel 
al.sinks.avroSink.hostname = receiver-hostname 
al.sinks.avroSink.port = port-used-for-avro-sink-not-spark-port 


例 10-35: Scala 中 的 FlumeUtils 代理 


val events = FlumeUtils.createStream(ssc, receiverHostname, receiverport) 


例 10-36: Java 中 的 FlumeUtils 代理 


JavaDStream<SparkFLumeEvent> events = FlumeUtils.createStream(ssc, receiverHostname, 
receiverport) 





虽然 这 种 方式 很 简洁 ， 但 缺点 是 没有 事务 支持 。 这 会 增加 运行 接收 器 的 工作 节点 发 生 错误 
时 丢失 少量 数据 的 几率 。 不 仅 如 此 ， 如 果 运 行 接收 器 的 工作 节点 发 生 故 障 ， 系 统 会 尝试 从 
另 一 个 位 置 启动 接收 器 ， 这 时 需要 重新 配置 Flume 才能 将 数据 发 给 新 的 工作 节点 。 这 样 配 
置 会 比较 麻烦 。 


4. 拉 式 接收 器 

较 新 的 方式 是 拉 式 接收 器 (在 Spark 1.1 中 引入 )， 它 设置 了 一 个 专用 的 Flume 数据 池 供 
Spark Streaming 读 取 ， 并 让 接收 器 主动 从 数据 池 中 拉 取 数据 。 这 种 方式 的 优点 在 于 弹性 较 
好 ，Spark Streaming 通过 事务 从 数据 池 中 读 取 并 复制 数据 。 在 收 到 事务 完成 的 通知 前 ， 这 
些 数据 还 保留 在 数据 池 中 。 


我 们 需要 先 把 自 定 义 数 据 池 配置 为 Flume 的 第 三 方 插件 。 安 装 插件 的 最 新 方法 请 参考 
Flume 文档 的 相关 部 分 (https://flume.apache.org/FlumeUserGuide.html#installing-third-party- 
plugins)。 由 于 插件 是 用 Scala 写 的 ,因此 需要 把 插件 本 身 以 及 Scala 库 都 添加 到 Flume 插件 
中 。Spark 1.1 中 对 应 的 Maven 索引 如 例 10-37 所 示 。 
























































例 10-37: Flume 数据 池 的 Maven 索引 


groupId = org.apache.spark 
artifactId = spark-streaming-flume-sink 2.10 
version = 1.2.0 


groupId = org.scala-lang 

artifactId = scala-library 

version = 2.10.4 
当 你 把 自 定义 Flume 数据 池 添 加 到 一 个 节点 上 之 后 ， 就 需要 配置 Flume 来 把 数据 推送 到 这 
个 数据 池 中 ， 如 例 10-38 所 示 。 


例 10-38: Flume 对 自 定义 数据 池 的 配置 
al.sinks = spark 
al.sinks.spark.type = org.apache.spark.streaming.flume.sink.SparkSink 











al.sinks.spark.hostname = receiver-hostname 
al.sinks.spark.port = port-used-for-sync-not-spark-port 
al.sinks.spark.channel = memoryChannel 


等 到 数据 已 经 在 数据 池 中 缓存 起 来 ， 就 可 以 调用 FlumeUtils 来 读 取 数 据 了 ， 如 例 10-39 和 
10-40 所 示 。 





例 10-39: 在 Scala 中 使 用 FLumeUtitLs 读 取 自 定义 数据 池 


val events = FlumeUtils.createpollingStream(ssc, receiverHostname, receiverPort) 


例 10-40: 在 Java 中 使 用 Flumeutils 读 取 自 定义 数据 池 


JavaDStream<SparkFlumeEvent> events = FlumeUtils.createpollingStream(ssc, 
receiverHostname, receiverPort) 


在 这 两 个 例子 中 ，DStream 是 由 SparkFlumeEvent (https://spark.apache.org/docs/latest/api/ 
java/org/apache/spark/streaming/flume/SparkFlumeEvent.html) 组 成 的 。 可 以 通过 event 访问 


下 层 的 AvroFLumeEvent。 如 果 事 件 主体 是 UTF-8 字符 串 ， 就 可 以 用 例 10-41 所 示 的 方式 获 
取 其 内 容 。 























例 10-41: Scala 中 的 SparkFlumeEvent 
// 假定 flume 事 件 是 UTF-8 编 码 的 日 志 记 录 
val lines = events.map{e => new String(e.event.getBody().array(), "UTF-8")} 
5. 自 定义 输入 源 
除了 上 述 这 些 源 ， 你 也 可 以 实现 自己 的 接收 器 来 支持 别 的 输入 源 。 详 细 信 息 请 参考 Spark 
文档 中 的 “ 自 定义 流 计算 接收 器 指南 ”(Streaming Custom Receivers guide，http://spark. 


apache.org/docs/latest/streaming-custom-receivers.html) 。 











10.5.3 多 数据 源 与 集群 规模 

如 前 文 所 述 ， 可 以 使 用 类 似 union() 这 样 的 操作 将 多 个 DStream 合并 。 通 过 这 些 操作 符 ， 
可 以 把 多 个 输入 的 DStream 合并 起 来 。 有 时 ， 合 操作 中 的 数 
据 获 取 的 吞吐 量 非常 必要 (如 果 只 用 一 个 接收 器 ， 可 能 会 成 为 性 能 瓶颈 )。 另 外 ， 有 时 我 
们 需要 用 不 同 的 接收 器 来 从 不 同 的 输入 源 中 接收 各 种 数据 ， 然 后 使 用 join 或 cogroup 进 


行 整合 。 

















理解 接收 器 是 如 何在 Spark 集群 中 运行 的 ， 对 于 我 们 使 用 多 个 接收 器 至 关 重 要 。 每 个 接收 

器 都 以 Spark 执行 器 程序 中 一 个 长 期 运行 的 任务 的 形式 运行 ， 因 此 会 占据 分 配给 应 用 的 
CPU 核心 。 此 外 ， 我 们 还 需要 有 可 用 的 CPU 核心 来 处 理 数 据 。 这 意味 着 如 果 要 运行 多 个 
接收 器 ， 就 必须 至 少 有 和 接收 器 数目 相同 的 核心 数 ， 还 要 加 上 用 来 完成 计算 所 需要 的 核心 
数 。 例 如 ， 如 果 我 们 想 要 在 流 计算 应 用 中 运行 10 个 接收 器 ， 那 么 至 少 需要 为 应 用 分 配 11 
个 CPU 核心 。 
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不 要 在 本 地 模式 下 把 主 节 点 配置 为 "Locat'" 或 "LocaL[1]" 来 运行 Spark 
Streaming 程序 。 这 种 配置 只 会 分 配 一 个 CPU 核心 给 任务 ， 如 果 接 收 器 运 
行 在 这 样 的 配置 里 ， 就 没有 剩余 的 资源 来 处 理 收 到 的 数据 了 。 至 少 要 使 用 
"Local[2]" 来 利用 更 多 的 核心 。 




















10.6 ” ”24/7 不 间断 运行 


Spark Streaming 的 一 大 优势 在 于 它 提供 了 强大 的 容错 性 保障 。 只 要 输入 数据 存储 在 可 靠 的 
系统 中 ，Spark Streaming 就 可 以 根据 输入 计算 出 正确 的 结果 ， 提 供 “精确 一 次 ”执行 的 语 
义 〈 就 好 像 所 有 的 数据 都 是 在 没有 任何 节点 失败 的 情况 下 处 理 的 一 样 )， 即 使 是 工作 节点 
或 者 驱动 器 程序 发 生 了 失败 。 


要 不 间断 运行 Spark Streaming 应 用 ， 需 要 一 些 特 别 的 配置 。 第 一 步 是 设置 好 诸如 HDFS 或 
Amazon S3 等 可 靠 存储 系统 中 的 检查 点 机 制 。 不仅 如 此 , 我 们 还 需要 考虑 驱动 器 程序 的 容错 
性 (需要 特别 的 配置 代码 ) 以 及 对 不 可 靠 输 入 源 的 处 理 。 本 市 会 介绍 如 何 进 行 这 些 配 置 。 

















10.6.1 检查 点 机 制 


检查 点 机 制 是 我 们 在 Spark Streaming 中 用 来 保障 容错 性 的 主要 机 制 。 它 可 以 使 Spark 
Streaming 阶段 性 地 把 应 用 数据 存储 到 诸如 HDFS 或 Amazon S3 这 样 的 可 靠 存 储 系统 中 ， 
以 供 恢复 时 使 用 。 具 体 来 说 ， 检 查 点 机 制 主要 为 以 下 两 个 目的 服务 。 


。 控制 发 生 失 败 时 需要 重 算 的 状态 数 。 我 们 在 10.2 节 中 讨论 过 ，Spark Streaming 可 以 通 
过 转化 图 的 谱系 图 来 重 算 状 态 ， 检 查 点 机 制 则 可 以 控制 需要 在 转化 图 中 回 湖 多 远 。 

。 提供 驱动 器 程序 容错 。 如 果 流 计算 应 用 中 的 驱动 器 程序 崩 福 了 ， 你 可 以 重启 驱动 右 程 序 
并 让 驱动 器 程序 从 检查 点 恢复 ， 这 样 Spark Streaming 就 可 以 读 取 之 前 运行 的 程序 处 理 
数据 的 进度 ， 并 从 那里 继续 。 


出 于 这 些 原因 ， 检 查 点 机 制 对 于 任何 生产 环境 中 的 流 计算 应 用 都 至 关 重要 。 你 可 以 通过 向 
ssc.checkpoint() 方法 传递 一 个 路 径 参 数 (HDFS、S3 或 者 本 地 路 径 均 可 ) 来 配置 检查 点 
机 制 ， 如 例 10-42 所 示 。 














例 10-42: 配置 检查 点 
ssc.checkpoint("hdfs://...") 





注意 ， 即 便 是 在 本 地 模式 下， 如果 你 尝试 运行 一 个 有 状态 操作 而 没有 打开 检查 点 机 制 ， 
Spark Streaming 也 会 给 出 提示 。 此 时 ， 你 需要 使 用 一 个 本 地 文件 系统 中 的 路 径 来 打开 检查 





注 3: 我 们 不 会 介绍 如 何 配置 这 些 文件 系统 ， 不 过 它们 一 般 都 会 在 Hadoop 环境 或 者 云 环境 中 已 经 配 好 。 如 果 
你 在 部 署 自己 的 集群 ， 配 置 HDFS 可 能 是 最 容易 的 。 
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点 。 不 过 ， 在 所 有 的 生产 环境 配置 中 ， 你 都 应 当 使 用 诸如 HDFS、S3 或 者 网 络 文件 系统 这 
样 的 带 备份 的 系统 。 











10.6.2 ”驱动 器 程序 容错 

驱动 器 程序 的 容错 要 求 我 们 以 特殊 的 方式 创建 StreamingContext。 我 们 需要 把 检查 
点 目录 提供 给 StreamingContext。 与 直接 调用 new StreamingContext 不 同 ， 应 该 使 用 
StreamingContext.getOrCreate() 国 数 。 应 把 之 前 的 示例 中 的 代码 改 成 如 例 10-43 和 例 
10-44 所 示 的 那样 。 














例 10-43: 用 Scala 配置 一 个 可 以 从 错误 中 恢复 的 驱动 器 程序 


def createStreamingContext() = { 


val sc = new SparkContext(conf) 

// 以 1 秒 作 为 批 次 大 小 创建 StreamingContext 

val ssc = new StreamingContext(sc, Seconds(1)) 
ssc.checkpoint(checkpointDir) 


} 





val ssc = StreamingContext.getOrCreate(checkpointDir, createStreamingContext _) 


例 10-44: 用 Java 配置 一 个 可 以 从 错误 中 恢复 的 驱动 器 程序 
JavaStreamingContextFactory fact = new JavaStreamingContextFactory() { 
public JavaStreamingContext call() { 


JavaSparkContext sc = new JavaSparkContext(conf); 
// 以 1 秒 作 为 批 次 天 小 创建 StreamingContext 
JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(1)); 
jssc.checkpoint(checkpointDir); 
return jssc; 
}}; 


JavaStreamingContext jssc = JavaStreamingContext.getOrCreate(checkpointDir, fact); 


| 





这 段 代码 第 一 次 运行 时 ， 假 设 检查 点 目录 还 不 存在 ， 那 么 StreamingContext 会 在 你 调用 工厂 
国 数 (在 Scala 中 为 createStreamingContext()， 在 Java 中 为 JavaStreamingContextFactory()) 
时 把 目录 创建 出 来 。 此 处 你 需要 设置 检查 点 目录 。 在 驱动 器 程序 失败 之 后 ， 如 果 你 重启 驱动 
器 程序 并 再 次 执行 代码 ，getorCreate() 会 重新 从 检查 点 目录 中 初始 化 出 StreamingContext， 
然后 继续 处 理 。 






































除了 用 getorcreate() 来 实现 初始 化 代码 以 外 ， 你 还 需要 编写 在 驱动 器 程序 崩溃 时 重启 驱 
动 器 进程 的 代码 。 在 大 多 数 集群 管理 器 中 ，Spark 不 会 在 驱动 器 程序 崩溃 时 自动 重启 驱动 
器 进程 ， 所 以 你 需要 使 用 诸如 monit 这 样 的 工具 来 监视 驱动 器 进程 并 进行 重启 。 最 佳 的 实 
现 方式 往往 取决 于 你 的 具体 环境 。Spark 在 独立 集群 管理 器 中 提供 了 更 丰富 的 支持 ， 可 以 
在 提交 驱动 器 程序 时 使 用 --supervise 标记 来 让 Spark 重启 失败 的 驱动 器 程序 。 你 还 要 传 
递 --deploy-mode cluster 参数 来 确保 驱动 器 程序 在 集群 中 运行 ， 而 不 是 在 本 地 机 器 上 运 
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行 ， 如 例 10-45 所 示 。 


例 10-45: 使 用 监管 模式 启动 驱动 器 程序 


./bin/spark-submit --deploy-mode cluster --supervise --master spark://... App.jar 


























在 使 用 这 个 选项 时 ， 如 果 你 希望 Spark 独立 模式 集群 的 主 节点 也 是 容错 的 ， 就 可 以 通过 
ZooKeeper 来 配置 主 节 点 的 容错 性 ， 详 细 信 息 请 参考 Spark 的 文档 (https://spark.apache.org/ 
docs/latest/spark-standalone.html#high-availability) 。 这 样 配置 之 后 ， 就 不 用 再 担心 你 的 应 用 
会 出 现 单个 节点 失败 的 情况 。 








最 后 需要 说 明 的 是 ， 当 驱动 器 程序 崩 江 时 ，Spark 的 执行 器 进程 也 会 重启 。 这 有 可 能 会 在 
以 后 的 Spark 版 本 中 有 所 改变 ， 不 过 这 是 1.2 以 及 更 早 版 本 的 Spark 的 预期 的 行为 ， 因 为 
执行 器 程序 不 能 在 没有 驱动 器 程序 的 情况 下 继续 处 理 数据 。 重 启 驱动 器 程序 会 启动 新 的 执 
行 器 进程 来 继续 之 前 的 计算 。 

















10.6.3 工作 节点 容错 

为 了 应 对 工作 节点 失败 的 问题 ，Spark Streaming 使 用 与 Spark 的 容错 机 制 相同 的 方法 。 所 
有 从 外 部 数据 源 中 收 到 的 数据 都 在 多 个 工作 节点 上 备份 。 所 有 从 备份 数据 转化 操作 的 过 程 
中 创建 出 来 的 RDD 都 能 容忍 一 个 工作 节点 的 失败 ， 因 为 根据 RDD 谱系 图 ， 系 统 可 以 把 丢 
失 的 数据 从 幸存 的 输入 数据 备份 中 重 算出 来 。 











10.6.4 接收 器 容错 

运行 接收 器 的 工作 闻 点 的 容错 也 是 很 重要 的 。 如 果 这 样 的 节点 发 生 错误 ，Spark Streaming 
会 在 集群 中 别 的 节点 上 重启 失败 的 接收 器 。 然 而 ， 这 种 情况 会 不 会 导致 数据 的 丢失 取决 于 
数据 源 的 行为 (数据 源 是 否 会 重 发 数据 ) 以 及 接收 器 的 实现 (接收 器 是 否 会 向 数据 源 确认 
收 到 数据 )。 举 个 例子 ， 使 用 Flume 作为 数据 源 时 ， 两 种 接收 器 的 主要 区 别 在 于 数据 丢失 
时 的 保障 。 在 “接收 器 从 数据 池 中 拉 取 数据 ”的 模型 中 ，Spark 只 会 在 数据 已 经 在 集群 中 
备份 时 才 会 从 数据 池 中 移 除 元 素 。 而 在 “向 接收 器 推 数据 ”的 模型 中 ， 如 果 接 收 器 在 数据 
备份 之 前 失败 ， 一 些 数据 可 能 就 会 丢失 。 总 的 来 说 ， 对 于 任意 一 个 接收 器 ， 你 必须 同时 考 
虑 上 游 数据 源 的 容错 性 (是 否 支 持 事 务 ) 来 确保 零 数据 丢失 。 


总 的 来 说 ， 接 收 器 提供 以 下 保证 。 


























。 所 有 从 可 靠 文件 系统 中 读 取 的 数据 (比如 通过 StreamingContext.hadoopFiles 读 取 的 ) 
都 是 可 靠 的 ， 因 为 底层 的 文件 系统 是 有 备份 的 。Spark Streaming 会 记 住 哪些 数据 存放 到 
了 检查 点 中 ， 并 在 应 用 崩溃 后 从 检查 点 处 继续 执行 。 

















182 | 第 10 章 





。 对 于 像 Kafka、 推 式 Fume、Twitter 这 样 的 不 可 靠 数据 源 ，Spark 会 把 输入 数据 复制 到 其 
他 节点 上 ， 但 是 如 果 接 收 器 任务 崩溃 ，Spark 还 是 会 丢失 数据 。 在 Spark 1.1 以 及 更 早 的 版 
本 中 ， 收 到 的 数据 只 被 备份 到 执行 器 进程 的 内 存 中 ， 所 以 一 旦 驱动 器 程序 崩 浇 (此 时 所 
有 的 执行 器 进程 都 会 丢失 连接 )， 数 据 也 会 丢失 。 在 Spark 1.2 中 ， 收 到 的 数据 被 记录 到 诸 
如 HDFS 这 样 的 可 靠 的 文件 系统 中 ， 这 样 即使 驱动 器 程序 重启 也 不 会 导致 数据 丢失 。 

















综 上 所 述 ， 确 保 所 有 数据 都 被 处 理 的 最 佳 方 式 是 使 用 可 靠 的 数据 源 (例如 HDFS、 拉 式 
Flume 等 )。 如 果 你 还 要 在 批 处 理 作业 中 处 理 这 些 数据 ， 使 用 可 靠 数 据 源 是 最 佳 方 式 ， 因 为 
这 种 方式 确保 了 你 的 批 处 理 作业 和 流 计算 作业 能 读 取 到 相同 的 数据 ， 因 而 可 以 得 到 相同 的 
结果 。 



































10.6.5 ”处 理 保证 


由 于 Spark Streaming 工作 节点 的 容错 保障 ，Spark Streaming 可 以 为 所 有 的 转化 操作 提供 
“精确 一 次 ”执行 的 语义 ， 即 使 一 个 工作 节点 在 处 理 部 分 数据 时 发 生 失 败 ， 最 终 的 转化 结 
果 ( 即 转化 操作 得 到 的 RDD) 仍然 与 数据 只 被 处 理 一 次 得 到 的 结果 一 样 。 


然而 ， 当 把 转化 操作 得 到 的 结果 使 用 输出 操作 推 人 外 部 系统 中 时 ， 写 结果 的 任务 可 能 因 故 
障 而 执行 多 次 ， 一 些 数据 可 能 也 就 被 写 了 多 次 。 由 于 这 引入 了 外 部 系统 ， 因 此 我 们 需要 专 
门 针对 各 系统 的 代码 来 处 理 这 样 的 情况 。 我 们 可 以 使 用 事务 操作 来 写 入 外 部 系统 ( 即 原子 
化 地 将 一 个 RDD 分 区 一 次 写 入 )， 或 者 设计 和 客 等 的 更 新 操作 ( 即 多 次 运行 同一 个 更 新 操作 
仍 生 成 相同 的 结果 )。 比 如 Spark Streaming 的 saveAs.. .File 操作 会 在 一 个 文件 写 完 时 自动 
将 其 原子 化 地 移动 到 最 终 位 置 上 ， 以 此 确保 每 个 输出 文件 只 存在 一 份 。 


































































































10.7 Streaming 用 户 界 面 

Spark Streaming 提供 了 一 个 特殊 的 用 户 界面 ， 可 以 让 我 们 查看 应 用 在 干什么 。 这 个 界 
面 在 常规 的 Spark 用 户 界面 (一 般 为 http://:4040) 上 的 Streaming 标签 页 里 。 图 10-9 是 
Streaming 用 户 界面 的 一 个 截屏 。 
































Streaming 用 户 界面 展示 了 批 处 理 和 接收 器 的 统计 信息 。 在 所 列举 的 例子 中 ， 有 一 个 网 络 接 
收 器 ， 借 此 可 以 看 到 消息 处 理 的 速率 。 如 果 处 理 速度 缓慢 ， 就 可 以 看 到 每 个 接收 器 可 以 处 
理 多 少 条 数据 ， 也 可 以 看 到 接收 器 是 否 发 生 了 故障 。 批 处 理 的 统计 信息 则 向 我 们 呈现 批 处 
理 已 经 占用 的 时 长 ， 以 及 调度 作业 时 的 延迟 情况 。 如 果 集 群 遇 到 了 资源 竞争 ， 那 么 调度 的 
延迟 会 增长 。 
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IndexTweetsLive application U 


Streaming 

Started at: Wed Oct 22 06:11:53 PDT 2014 
TIme since start: 27 mInutes 20 seconds 
Network receivers: 1 


Processed batches: 1641 
Waiting batches: 0 


Statistics over last 100 processed batches 
Recelver Statlstlcs 


Records in last batch “Minimum rate Median rate Maximum rate 
Receiver Status Location [2014/10/22 06:39:14] [records/sec] [records/sec] [records/sec] Last Error 


TwitterReceiver-0 ACTIVE localhost 39 0 61 151 


Batch Processing Statlstlcs 


Metric Last batch Minimum 25th percentile 75th percentile Maximum 


Processing Time 2 Seconds 289 ms 
Scheduling Delay s 's s s s 803 ms 


Total Delay 2 seconds 289 ms 











图 10-9: Spark 用 户 界 面 中 的 Streaming 用 户 界面 标签 页 


10.8 性 能 考量 
除了 我 们 已 经 针对 一 般 的 Spark 应 用 讨论 过 的 性 能 考量 以 外 ，Spark Streaming 应 用 还 有 一 
些 特殊 的 调 优选 项 。 


10.8.1 批 次 和 窗口 大 小 
最 常见 的 问题 是 Spark Streaming 可 以 使 用 的 最 小 批 次 间隔 是 多 少 。 总 的 来 说 ，500 毫秒 已 
经 被 证 实 为 对 许多 应 用 而 言 是 比较 好 的 最 小 批 次 大 小 。 寻 找 最 小 批 次 大 小 的 最 佳 实践 是 从 
一 个 比较 大 的 批 次 大 小 〈10 秒 左右 ) 开始 ， 不 断 使 用 更 小 的 批 次 大 小 。 如 果 Streaming 用 
户 界面 中 显示 的 处 理 时 间 保 持 不 变 ， 你 就 可 以 进一步 减 小 批 次 大 小 。 如 果 处 理 时 间 开 始 增 
加 ， 你 可 能 已 经 达到 了 应 用 的 极限 。 








相似 地 ， 对 于 窗口 操作 ， 计 算 结 果 的 间隔 (也 就 是 滑动 步 长 ) 对 于 性 能 也 有 巨大 的 影响 。 
当 计 算 代价 巨大 并 成 为 系统 瓶颈 时 ， 就 应 该 考虑 提高 滑动 步 长 了 。 














10.8.2 并行 度 
减少 批 处 理 所 消 耗 时 间 的 常见 方式 还 有 提高 并 行 度 。 有 以 下 三 种 方式 可 以 提高 并 行 度 。 








。 增加 接收 器 数目 
有 了 时 如 果 记 录 太 多 导致 单 台 机 器 来 不 及 读 入 并 分 发 的 话 ， 接 收 器 会 成 为 系统 瓶 诺 。 这 时 
你 就 需要 通过 创建 多 个 输入 DStream (这 样 会 创建 多 个 接收 器 ) 来 增加 接收 器 数目 ， 然 
后 使 用 union 来 把 数据 合并 为 一 个 数据 源 。 

。 将 收 到 的 数据 显 式 地 重新 分 区 
如 果 接 收 器 数目 无 法 再 增加 ， 你 可 以 通过 使 用 DStream.repartition 来 显 式 重新 分 区 输 
入 流 (或 者 合并 多 个 流 得 到 的 数据 流 ) 来 重新 分 配 收 到 的 数据 。 

。 提高 聚合 计算 的 并 行 度 
对 于 像 reduceByKey() 这 样 的 操作 ， 你 可 以 在 第 二 个 参数 中 指定 并 行 度 ， 我 们 在 介绍 
RDD 时 提 到 过 类 似 的 手段 。 


10.8.3 垃圾 回收 和 内 存 使 用 

Java 的 垃圾 回收 机 制 (简称 GC) 也 可 能 会 引起 问题 。 你 可 以 通过 打开 Java 的 并 发 标志 一 
清除 收集 器 (Concurrent Mark-Sweep garbage collector) 来 减少 GC 引起 的 不 可 预测 的 长 暂 
停 。 并 发 标志 一 清除 收集 器 总 体 上 会 消耗 更 多 的 资源 ， 但 是 会 减少 暂停 的 发 生 。 

可 以 通过 在 配置 参数 spark.executor.extraJavaOptions 中 添加 -XX:+UseConcMarkSweepGC 
来 控制 选择 并 发 标志 一 请 除 收集 器 。 例 10-46 展示 了 使 用 spark-submit 时 的 配置 方法 。 

例 10-46: 打开 并 发 标志 一 清除 收集 器 


spark-submit --conf spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC App.jar 






































除了 使 用 较 少 引发 暂停 的 垃圾 回收 器 ， 你 还 可 以 通过 减轻 GC 的 压力 来 大 幅度 改善 性 能 。 
把 RDD 以 序列 化 的 格式 缓存 (而 不 使 用 原生 的 对 象 》 也 可 以 减轻 GC 的 压力 ， 这 也 是 为 
什么 默认 情况 下 Spark Streaming 生成 的 RDD 都 以 序列 化 后 的 格式 存储 。 使 用 Kryo 序列 化 
工具 可 以 进一步 减少 缓存 在 内 存 中 的 数据 所 需要 的 内 存 大 小 。 

Spark 也 允许 我 们 控制 缓存 下 来 的 RDD 以 怎样 的 策略 从 缓存 中 移 除 。 默 认 情况 下 ，Spark 
使 用 LRU 缓存 。 如 果 你 设置 了 spark.cteaner.ttL，Spark 也 会 显 式 移 除 超出 给 定时 间 范 围 
的 老 RDD。 主 动 从 缓存 中 移 除 不 大 可 能 再 用 到 的 RDD， 可 以 减轻 GC 的 压力 。 


10.9 ”总结 


本 章 我 们 学 习 了 如 何 使 用 DStream 操作 流 数 据 。 由 于 DStream 是 由 RDD 组 成 的 ， 从 前 面 
的 章节 中 学 到 的 技术 和 知识 仍然 适用 于 流 式 计算 与 实时 应 用 。 下 一 章 我 们 来 讲解 如 何 运 用 
Spark 进行 机 器 学 习 。 
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基于 MLIib 的 机 器 学 习 





MLlib 是 Spark 中 提供 机 器 学 习 函 数 的 库 。 它 是 专 为 在 集群 上 并 行 运 行 的 情况 而 设计 的 。 
MLlib 中 包含 许多 机 器 学 习 算 法 ， 可 以 在 Spark 支持 的 所 有 编程 语言 中 使 用 。 本 章 会 展示 
如 何在 你 的 程序 中 调用 MLlib， 并 且 给 出 一 些 常用 的 使 用 技巧 。 











机 器 学 习 本 身 是 一 个 很 大 的 话题 ， 足 够 写 很 多 本 书 ， 所 以 本 章 不 会 介绍 机 器 学 习 本 身 。 不 
过 ， 如 果 你 对 机 器 学 习 很 熟悉 的 话 ， 你 可 以 从 本 章 学 到 如 何在 Spark 中 使 用 机 器 学 习 ;， 即 
使 你 是 机 器 学 习 的 初学 者 ， 你 也 能 够 把 本 章 的 内 容 与 其 他 关于 机 器 学 习 的 介绍 性 文字 联系 
起 来 。 如 果 你 是 有 机 器 学 习 背 景 的 数据 科学 家 或 者 是 与 机 器 学 习 专 家 共事 的 工程 师 ， 并 且 
正在 尝试 使 用 Spark， 那 么 你 就 应 该 读 读 本 章 内 容 。 


11.1 概述 


MLlib 的 设计 理念 非常 简单 : 把 数据 以 RDD 的 形式 表示 ， 然 后 在 分 布 式 数据 集 上 调用 各 
种 算法 。MLlib 引入 了 一 些 数 据 类 型 (比如 点 和 向 量 )， 不 过 归根 结 底 ，MLilib 就 是 RDD 
上 一 系列 可 供 调 用 的 函数 的 集合 。 比 如 ， 如 果 要 用 MLlib 来 完成 文本 分 类 的 任务 (例如 识 
别 垃圾 邮件 ) ， 你 只 需要 按 如 下 步骤 操作 。 


(1) 首先 用 字符 串 RDD 来 表示 你 的 消息 。 









































(2) 运 行 MLlib 中 的 一 个 特征 提取 (feature extraction) 算法 来 把 文本 数据 转换 为 数值 特征 
(适合 机 器 学 习 算 法 处 理 ) ， 该 操作 会 返回 一 个 向 量 RDD。 











注 1: 如 O’Reilly 出 版 的 Machine Learning with R 和 Machine Learning for Hackers 等 。 
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回 


归 ) ; 这 步 会 返回 一 个 模型 对 象 ， 可 以 使 用 该 











(3) 对 向 量 RDD 调用 分 类 算法 (比如 逻辑 
对 象 对 新 的 数据 点 进行 分 类 。 


(4) 使 用 MLlib 的 评估 函数 在 测试 数据 集 上 评估 模型 。 


需要 注意 的 是 ，MLlib 中 只 包含 能 够 在 集群 上 运行 恨 好 的 并 行 算法 ， 这 一 点 很 重要 。 有 
些 经 典 的 机 器 学 习 算 法 没有 包含 在 其 中 ， 就 是 因为 它们 不 能 并 行 执行 。 相 反 地 ， 一 些 较 
新 的 研究 得 出 的 算法 因为 适用 于 集群 ， 也 被 包含 在 MLlib 中 ， 例 如 分 布 式 随 机 森林 算法 
(distributed random forests) 、K-means|| 聚 类 、 交 替 最 小 二 乘 算法 (alternating least squares) 
等 。 这 样 的 选择 使 得 MLlib 中 的 每 一 个 算法 都 适用 于 大 规模 数据 集 。 如 果 你 要 在 许多 小 
规模 数据 集 上 训练 各 机 器 学 习 模 型 ， 最 好 还 是 在 各 节点 上 使 用 单 节 点 的 机 器 学 习 算法 库 
(例如 Weka，http:/www.cs.waikato.ac.nz/ml/weka/， 或 SciKit-Learn，http:/scikit-learn.org/ 
stable/) 实现 ， 比 如 可 以 用 Spark 的 map() 操作 在 各 节点 上 并 行使 用 。 类 似 地 ， 我 们 在 机 器 
学 习 流 水 线 中 也 和 常常 用 同一 算法 的 不 同 参数 对 小 规模 数据 集 分 别 训练 ， 来 选 出 最 好 的 一 组 
参数 。 在 Spark 中 ， 你 可 以 通过 把 参数 列表 传 给 paratlelize() 来 在 不 同 的 节点 上 分 别 运 
行 不 同 的 参数 ， 而 在 每 个 节点 上 则 使 用 单 节 点 的 机 器 学 习 库 来 实现 。 只 有 当 你 需要 在 一 个 
大 规模 分 布 式 数 据 集 上 训练 模型 时 ，MLlib 的 优势 才能 突显 出 来 。 






























































最 后 ， 在 Spark 1.0 和 Spark 1.1 中 ，MLlib 的 接口 相对 来 说 比较 底层 ， 提 供给 你 的 是 不 同 
任务 应 调用 的 函数 ， 而 不 是 高 层 的 机 器 学 习 流 水 线 所 需要 的 工作 流程 (例如 把 输入 数据 分 
为 训练 数据 和 测试 数据 ， 或 者 尝试 参数 的 多 种 组 合 )。 在 Spark 1.2 中 ，MLlib 引入 了 流水 
线 API (在 本 书 成 书 之 际 还 是 试验 性 功能 ")， 可 以 用 来 构建 这 样 的 流水 线 。 这 套 API 和 类 
似 SciKit-Learn 这 样 的 高 层 库 很 像 ， 可 以 让 人 很 容易 地 写 出 完整 的 、 可 自动 调节 的 机 器 学 
习 流 水 线 。 本 章 还 是 以 低级 API 为 主 ， 我 们 会 在 本 章 最 后 简要 介绍 一 下 这 套 API。 


11.2 系统 要 求 


MLlib 需要 你 的 机 器 预 装 一 些 线性 代数 的 库 。 首 先 ， 你 需要 为 操作 系统 安装 gfortran 运行 
库 。 如 果 MLlib 警告 找 不 到 gfortran 库 的 话 ， 可 以 按 MLlib 网 站 (http://spark.apache.org/ 
docs/latest/mllib-guide.html) 上 说 明 的 步骤 处 理 。 其 次 ， 如 果 你 要 在 Python 中 使 用 MLlib， 
你 需要 安装 NumPy (http://www.numpy.org/)。 如 果 你 的 Python 没有 安装 NumPy ( 即 你 无 
法 使 用 import numpy)， 最 简单 的 办 法 就 是 使 用 Linux 的 包 管 理工 具 来 安装 python-numpy 
包 或 numpy 包 ， 或 者 使 用 第 三 方 定制 的 Python 版 本 ， 比 如 Anaconda (http://continuum.io/ 


downloads ) 。 






























































MLlib 支持 的 算法 也 在 随 着 时 间 推 移 不 断 发 展 。 本 章 讨论 的 是 Spark 1.2 中 MLlib 支持 的 算 
法 ， 有 一 些 可 能 在 早期 的 Spark 版 本 中 不 存在 。 








注 2: 在 1.4.0 中 已 成 为 正式 接口 。 一 一 译 者 注 
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11.3 机 器 学 习 基 础 
在 开始 讲 MLlib 中 的 函数 之 前 ， 先 来 简单 回顾 一 下 机 器 学 习 的 相关 概念 。 


机 器 学 习 算 法 尝试 根据 训练 数据 (training data) 使 得 表示 算法 行为 的 数学 目标 最 大 化 ， 并 
以 此 来 进行 预测 或 作出 决定 。 机 器 学 习 问 题 分 为 几 种 ， 包 括 分 类 、 回 归 、 聚 类 ， 每 种 都 有 
不 一 样 的 目标 。 拿 分 类 (classification) 作为 一 个 简单 的 例子 : 分 类 是 基于 已 经 被 标记 的 其 
他 数据 点 (比如 一 些 已 经 分 别 被 标记 为 垃圾 邮件 或 非 垃 圾 邮件 的 邮件 ) 作为 例子 来 识别 一 
个 数据 点 属于 几 个 类 别 中 的 哪 一 种 (比如 判断 一 封 邮 件 是 不 是 垃圾 邮件 )。 


所 有 的 学 习 算 法 都 需要 定义 每 个 数据 点 的 特征 (feature) 集 ， 也 就 是 传 给 学 习 函 数 的 值 。 
举 个 例子 ， 对 于 一 封 邮件 来 说 ， 一 些 特征 可 能 包括 其 来 源 服务 器 、 提 到 free 这 个 单词 的 次 
数 、 字 体 颜色 等 。 在 很 多 情况 下 ， 正 确 地 定义 特征 才 是 机 器 学 习 中 最 有 挑战 性 的 部 分 。 例 
在 产品 推荐 的 任务 中 ， 仅 仅 加 上 一 个 额外 的 特征 (例如 我 们 意识 到 推荐 给 用 户 的 书籍 

能 也 取决 于 用 户 看 过 的 电影 )， 就 有 可 能 极 大 地 改进 结果 。 


大 多 数 算法 都 只 是 专 为 数值 特征 (具体 来 说 ， 就 是 一 个 代表 各 个 特征 值 的 数字 向 量 ) 定义 
的 ， 因 此 提取 特征 并 转化 为 特征 向 量 是 机 器 学 习 过 程 中 很 重要 的 一 步 。 例 如 ， 在 文本 分 类 
中 (比如 垃圾 邮件 和 非 垃 圾 邮件 的 例子 )， 有 好 儿 个 提取 文本 特征 的 方法 ， 比 如 对 各 个 单 
词 出 现 的 频率 进行 计数 。 


当 数 据 已 经 成 为 特征 向 量 的 形式 后 ， 大 多 数 机 器 学 习 算 法 都 会 根据 这 些 向 量 优化 一 个 定义 
好 的 数学 函数 。 例 如 ， 某 个 分 类 算法 可 能 会 在 特征 向 量 的 空间 中 定义 出 一 个 平面 ， 使 得 这 
个 平面 能 “最 好 ”地 分 隔 垃 圾 邮件 和 非 垃 圾 邮件 。 这 里 需要 为 “最 好 ”给 出 定义 (比如 大 
多 数 数据 点 都 被 这 个 平面 正确 分 类 )。 算 法 会 在 运行 结束 时 返回 一 个 代表 学 习 决 定 的 模型 
(比如 这 个 选中 的 平面 )， 而 这 个 模型 就 可 以 用 来 对 新 的 点 进行 预测 (例如 根据 新 邮件 的 特 
征 向 量 在 平面 的 哪 一 边 来 决定 它 是 不 是 垃圾 邮件 )。 图 11-1 展示 了 一 个 机 器 学 习 流 水 线 的 
示例 。 
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图 11-1: 机 器 学 习 流 水 线 中 的 典型 步 
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最 后 ， 大 多 数 机 器 学 习 算 法 都 有 多 个 会 影响 结果 的 参数 ， 所 以 现实 中 的 机 器 学 习 流 水 线 会 训 
练 出 多 个 不 同 版 本 的 模型 ， 然 后 分 别 对 其 进行 评估 (evaluate)。 要 这 么 做 的 话 ， 通 常 需要 把 
输入 数据 分 为 “训练 集 ” 和 “测试 集 "， 并 且 只 使 用 前 者 进行 训练 ， 这 样 就 可 以 用 后 者 来 检 
验 模型 是 否 过 度 拟 合 (overfit) 了 训练 数据 。MLlib 提供 了 几 个 算法 来 进行 模型 评 佑 。 


NS 





示例 : 垃圾 邮件 分 类 

举 一 个 用 来 快速 了 解 MLlib 的 例子 ， 我 们 会 展示 一 个 构建 垃圾 邮件 分 类 器 的 简单 
程序 ( 见 例 11-1 至 例 11-3)。 这 个 程序 使 用 了 MLiib 中 的 两 个 国 数 : HashingTF 与 
LogisticRegressionWithsSGD， 前 者 从 文本 数据 构建 词 频 (term frequency) 特征 向 量 ， 后 者 
使 用 随机 梯度 下 降 法 (Stochastic Gradient Descent， 简 称 SGD) 实现 逻辑 回归 。 假 设 我 们 
从 两 个 文件 spam.txt 与 normal.txt 开始 ， 两 个 文件 分 别 包 含 垃圾 邮件 和 非 垃 圾 邮件 的 例子 ， 
每 行 一 个 。 接 下 来 我 们 就 根据 词 频 把 每 个 文件 中 的 文本 转化 为 特征 向 量 ， 然 后 训练 出 一 个 
可 以 把 两 类 消息 分 开 的 逻辑 回归 模型 。 代 码 和 数据 文件 可 以 在 本 书 的 Git 仓库 中 找到 。 























例 11-1: Python 版 垃圾 邮件 分 类 器 


from pyspark.mllib.regression import LabeLedPoint 
from pyspark.mLLib.feature import HashingTF 
from pyspark.mllib.classification import LogisticRegressionWithSGD 


spam = sc.textFile("spam.txt") 
normal = sc.textFile("normal.txt") 


# 创建 一 个 HashingTF 实 例 来 把 邮件 文本 映射 为 包含 10996 个 特征 的 向 量 
tf = HashingTF(numFeatures = 10000) 

# 各 邮件 都 被 切 分 为 单词 ,每 个 单词 被 映射 为 一 个 特征 
spamFeatures = spam.map(lambda email: tf.transform(email.split(" "))) 
normalFeatures = normal.map(lambda email: tf.transform(email.split(" "))) 











# 创建 LabeledPoint 数 据 集 分 别 存放 阳性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 
positiveExamples = spamFeatures.map(lambda features: LabeledPoint(1, features)) 
negativeExamples = normaLFeatures.map(Lambda features: LabeLedPoint(0，features)) 
trainingData = positiveExamples.union(negativeExamples) 


trainingData.cache() # 因为 逻辑 回归 是 迭代 算法 ,所 以 缓存 训练 数据 RDD 























# 使 用 SGD 算 法 运行 逻辑 回归 
model = LogisticRegressionWithsSGD.train(trainingData) 























# 以 阳性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 分 别 进行 测试 ,首先 使 用 

# 一 样 的 HashingTF 特 征 来 得 到 特征 向 量 , 然 后 对 该 向 量 应 用 得 到 的 模型 

posTest = tf.transform("0 M G GET cheap stuff by sending money to ...".split(" ")) 
negTest = tf.transform("Hi Dad, I started studying Spark the other ...".split(" ")) 
print "Prediction for positive test example: %g" % model.predict(posTest) 

print "Prediction for negative test example: %g" % model.predict(negTest) 














例 11-2: Scala 版 垃圾 邮件 分 类 器 


import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mLLib.feature.HashingTF 





import org.apache.spark.mllib.classification.LogisticRegressionWithSGD 


val spam = sc.textFile("spam.txt") 
val normal = sc.textFile("normal.txt") 


// 创建 一 个 HashingTF 实 例 来 把 邮件 文本 映射 为 包含 109969 个 特征 的 向 量 
val tf = new HashingTF(numFeatures = 10000) 

// 各 邮件 都 被 切 分 为 单词 ,每 个 单词 被 映射 为 一 个 特征 
val spamFeatures = spam.map(email => tf.transform(email.split(" "))) 

val normaLFeatures = normal.map(email => tf.transform(email.split(" "))) 

















// 创建 LabeLedPoint 数 据 集 分 别 存放 阳性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 

val positiveExamples = spamFeatures.map(features => LabeLedPoint(1，features)) 
val negativeExamples = normaLFeatures.map(features => LabeledPoint(0, features)) 
val trainingData = positiveExamples.union(negativeExamples) 


trainingData.cache() // 因为 逻辑 回归 是 迭代 算法 ,所 以 缓存 训练 数据 RDD 
// 使 用 SGD 算 法 运行 逻辑 回归 


val model = new LogisticRegressionWithSGD().run(trainingData) 

















// 以 阳性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 分 别 进行 测试 


val posTest = tf.transform( 


"0 MG GET cheap stuff by sending money to ...".split(" ")) 
val negTest = tf.transform( 
"Hi Dad, I started studying Spark the other ...".split(" ")) 


println("Prediction for positive test example: 
println("Prediction for negative test example: 


+ model.predict(posTest)) 
+ model.predict(negTest)) 


例 11-3: Java 版 垃圾 邮件 分 类 器 


import org.apache.spark.mllib.classification.LogisticRegressionModel; 
import org.apache.spark.mllib.classification.LogisticRegressionWithsGD; 
import org.apache.spark.mllib.feature.HashingTF; 

import org.apache.spark.mllib.linalg.Vector; 

import org.apache.spark.mllib.regression.LabeledPoint; 


JavaRDD<String> spam = sc.textFile("spam.txt"); 
JavaRDD<String> normal = sc.textFile("normal.txt"); 


// 创建 一 个 HashingTF 实 例 来 把 邮件 文本 映射 为 包含 109906 个 特征 的 向 量 
final HashingTF tf = new HashingTF(10000); 








// 创建 LabeledPoint 数 据 集 分 别 存 放 阳 性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 
JavaRDD<LabeledPoint> posExamples = spam.map(new Function<String, LabeledPoint>() { 
public LabeLedPoint call(String email) { 
return new LabeledPoint(1, tf.transform(Arrays.asList(email.split(" ")))); 
} 
]); 
JavaRDD<LabeLedPoint> negExamples = normal.map(new Function<String，LabeLedPoint>() { 
public LabeledPoint call(String email) { 
return new LabeledPoint(0, tf.transform(Arrays.asList(email.split(" ")))); 
} 
]); 
JavaRDD<LabeLedPoint> trainData = positiveExamples.union(negativeExamples); 


trainData.cache(); // 因为 逻辑 回归 是 迭代 算法 ,所 以 缓存 训练 数据 RDD 




















Le 
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骨 


// 使 用 SGD 算 法 运行 逻辑 回归 


LogisticRegressionModel model = new LogisticRegressionWithSaD().run(trainData.rdd()); 





// 以 阳性 (垃圾 邮件 ) 和 阴性 (正常 邮件 ) 的 例子 分 别 进行 测试 
Vector posTest = tf.transform( 

Arrays.asList("0 M G GET cheap stuff by sending money to ...".split(" "))); 
Vector negTest = tf.transform( 

Arrays.asList("Hi Dad, I started studying Spark the other ...".split(" "))); 
System.out.println("Prediction for positive example: " + model.predict(posTest)); 
System.out.println("Prediction for negative example: " + model.predict(negTest)); 





如 你 所 见 ， 这 段 代码 在 各 种 语言 中 都 很 相似 。 代 码 直 接 操作 RDD 一 一 在 本 例 中 ， 所 操作 的 
是 字符 串 RDD ( 即 原始 文本 ) 和 LabeledPoints (MLlib 中 用 来 存放 特征 向 量 和 对 应 标签 
的 数据 类 型 ) RDD。 


11.4 数据 类 型 
MLlib 包含 一 些 特 有 的 数据 类 型 ， 它 们 位 于 org.apache.spark.mLLib 包 (Java/Scala) 或 
pyspark.mLLib (Python) 内 。 主 要 的 几 个 如 下 所 列 。 











。 Vector 
一 个 数学 向 量 。MLlib 既 支持 稠密 向 量 也 支持 稀 玻 向 量 ， 前 者 表示 向 量 的 每 一 位 都 存储 
下 来 ， 后 者 则 只 存储 非 零 位 以 节约 空间 。 后 面 会 简单 讨论 不 同 种 类 的 向 量 。 向 量 可 以 通 
过 mllib.linalg.Vectors 类 创建 出 来 。 












































。 LabeLedPoint 

在 诸如 分 类 和 回归 这 样 的 监督 式 学 习 (supervised learning) 算法 中 ，LabeledPoint 用 来 
表示 带 标签 的 数据 点 。 它 包含 一 个 特征 向 量 与 一 个 标签 (由 一 个 浮 点 数 表示 )， 位 置 在 
mllib.regression 包 中 。 











。 Rating 
用 户 对 一 个 产品 的 评分 ， 在 mllib.recommendation 包 中 ， 用 于 产品 推荐 。 


。 各 种 ModeL 类 
每 个 Model 都 是 训练 算法 的 结果 ， 一 般 有 一 个 predict() 方法 可 以 用 来 对 新 的 数据 点 或 
数据 点 组 成 的 RDD 应 用 该 模型 进行 预测 。 


大 多 数 算法 直接 操作 由 Vector、LabeledPoint 或 Rating 对 象 组 成 的 RDD。 你 可 以 用 任 
意 方 式 创建 出 这 些 对 象 ， 不 过 一 般 来 说 你 需要 通过 对 外 部 数据 进行 转化 操作 来 构建 出 
RDD 一 一 例如 ， 通 过 读 取 一 个 文本 文件 或 者 运行 一 条 Spark SQL 命令 。 接 下 来 ， 使 用 
map() 将 你 的 数据 对 象 转 为 MLlib 的 数据 类 型 。 
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操作 向量 


作为 MLlib 中 最 党 


用 的 数据 类 型 ，vector 类 有 一 些 需要 注意 的 地 方 。 














一 ， 向 量 有 两 种 : 稠密 向 量 与 稀 玻 向 量 。 笛 密 向 量 把 所 有 维度 的 值 存放 在 一 个 浮 点 数 数 


组 中 。 例 如 ， 一 个 100 维 的 向 量 会 存储 100 个 双 精 度 浮 点 数 。 相 比 之 下 ， 稀 玻 据 
最 多 只 有 10% 的 元 素 为 非 零 元 素 时 ， 我 们 通常 更 倾向 于 使 用 
出 于 对 速度 的 考虑 ) 。 许 多 特征 提取 技术 


维度 中 的 非 零 值 存储 下 来 。 当 
稀 踊 向 量 (不 仅 是 出 于 对 内 存 使 用 的 考虑 ， 也 是 














都 会 生成 非常 稀 玻 的 向 量 ， 所 以 这 种 方式 常常 是 一 种 很 关键 的 优化 手段 。 





量 只 把 各 





第 二 ， 创 建 向 量 的 方式 在 各 种 语言 中 有 一 些 细微 的 差别 。 在 Python 中 ， 你 在 MLlib 中 任意 
地 方 传递 的 NumPy 数组 都 表示 一 个 稠密 向 量 ， 你 也 可 以 使 用 mllib.linalg.Vectors 类 创 
向 量 (如 例 11-4 所 示 )。; 而 在 Java 和 Scala 中 ， 都 需要 使 用 mllib.linalg. 
Vectors 类 (如 例 11-5 和 例 11-6 所 示 )。 


建 其 他 类 型 的 


例 11-4: 用 Python 创建 向 量 














from numpy import array 
from pyspark.mllib.linalg import Vectors 





# 创建 稠密 向 量 <1.0，2.0，3.0> 


denseVec1 
denseVec2 





= array([1.0，2.0，3.0]) # NumPy 数 组 可 以 直接 传 给 MLLib 
= Vectors.dense([1.0，2.0，3.0]) # 或 者 使 用 Vectors 类 来 























# 创建 稀 蔗 向 量 <1.0，60.0，2.0，0.0>; 该 方法 只 接收 
# 向 量 的 维度 (4) 以 及 非 零 位 的 位 置 和 对 应 的 值 
# 这 些 数 据 可 以 用 一 个 dictionary 来 传递 ,或 使 用 两 个 分 别 代表 位 置 和 值 的 Litst 





sparseVec 














1 = Vectors.sparse(4, {0: 1.0, 2: 2.0}) 


sparseVec2 = Vectors.sparse(4, [0, 2], [1.0, 2.0]) 





例 11-5: 用 Scala 创建 向 量 


import org.apache.spark.mLLib.LinaLg.Vectors 


// 创建 稠密 向 量 <1.0，2.0，3.0>;Vectors.dense 接 收 一 串 值 或 一 个 数组 


val denseVecl 
val denseVec2 


Vectors.dense(1.0, 2.0, 3.0) 
Vectors.dense(Array(1.0, 2.0, 3.0)) 


// 创建 稀 琉 向 量 <1.0，0.0，2.0，0.0>; 该 方法 只 接收 


// 向 量 的 


val spars 


维度 (这 里 是 4) 以 及 非 零 位 的 位 置 和 对 应 的 值 
evec1 = Vectors.sparse(4, Array(0, 2), Array(1.0, 2.0)) 


例 11-6: 用 Java 创建 向 量 


import org.apache.spark.mllib.linalg.Vector; 
import org.apache.spark.mllib.linalg.Vectors; 





























创建 














// 创建 稠密 向 量 <1.0，2.0，3.0>;Vectors.dense 接 收 一 串 值 或 一 个 数组 
Vector denseVecl1 = Vectors.dense(1.0, 2.0, 3.0); 
注 3: 如 果 你 使 用 的 是 SciPy，Spark 也 能 够 将 大 小 为 Nx 1 的 scipy.sparse 矩阵 识别 为 长 度 为 N 的 向 量 。 
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Vector denseVec2 = Vectors.dense(new double[] {1.0, 2.0, 3.0}); 





// 创建 稀 政 癌 量 <1.06，0.0，2.0，0.0>; 该 方法 只 接收 
// 向 量 的 维度 (这 里 是 4) 以 及 非 零 位 的 位 置 和 对 应 的 值 
Vector sparseVec1 = Vectors.sparse(4，new int[] {0, 2}, new double[]{1.0, 2.0}); 























最 后 ， 在 Java 和 Scala 中 ，MLlib 的 Vector 类 只 是 用 来 为 数据 表示 服务 的 ， 而 没有 在 用 
户 API 中 提供 加 法 和 减法 这 样 的 向 量 的 算术 操作 。( 在 Python 中 ， 你 可 以 对 稠密 向 量 使 用 
NumPy 来 进行 这 些 数 学 操作 ， 也 可 以 把 这 些 操作 传 给 MLlib。) 这 主要 是 为 了 让 MLlib 保 
持 在 较 小 规模 内 ， 因 为 实现 一 套 完整 的 线性 代数 库 超出 了 本 工程 的 范围 。 如 果 你 想 在 你 也 
程序 中 进行 向 量 的 算术 操作 ， 可 以 使 用 一 些 第 三 方 的 库 ， 比 如 Scala 中 的 Breeze (https:// 
github.com/scalanlp/breeze) 或 者 Java 中 的 MTJ (https://github.com/fommil/matrix-toolkits-java) ， 
然后 再 把 数据 转 为 MLlib 向 量 。 


11.5 算法 
本 节 会 介绍 MLlib 中 主要 的 算法 ， 以 及 它们 的 输入 和 输出 类 型 。 我 们 没有 足够 的 篇 幅 来 解 
释 各 个 算法 的 数学 原理 ， 因 此 只 能 专注 于 如 何 调用 并 配置 这 些 算法 。 


11.5.1 特征 提取 
mLLib.feature 包 中 包含 一 些 用 来 进行 常见 特征 转化 的 类 。 这 些 类 中 有 从 文本 (或 其 他 表 
示 ) 创建 特征 向 量 的 算法 ， 也 有 对 特征 向 量 进行 正规 化 和 伸缩 变换 的 方法 。 

































































TF-IDF 

词 频 一 逆 文 档 频 率 (简称 TF-IDF) 是 一 种 用 来 从 文本 文档 (例如 网 页 ) 中 生成 特征 向 量 的 
简单 方法 。 它 为 文档 中 的 每 个 词 计算 两 个 统计 值 : 一 个 是 词 频 (TF)， 也 就 是 每 个 词 在 文 
档 中 出 现 的 次 数 ， 另 一 个 是 逆 文 档 频率 (IDF) ， 用 来 衡量 一 个 词 在 整个 文档 语料库 中 出 现 
的 〈 逆 ) 频繁 程度 。 这 些 值 的 积 ， 也 就 是 TF x IDF， 展 示 了 一 个 词 与 特定 文档 的 相关 程 
度 〈 比 如 这 个 词 在 某 文档 中 很 常见 ， 但 在 整个 语料库 中 却 很 少见 ) 。 


MLlib 有 两 个 算法 可 以 用 来 计算 TF-IDF: HashingTF 和 IDF， 都 在 mLLtb.feature 包 内 。 
HashingTF 从 一 个 文档 中 计算 出 给 定 大 小 的 词 频 向 量 。 为 了 将 词 与 向 量 顺 序 对 应 起 来 ， 它 
使 用 了 哈 希 法 (hasing trick)。 在 类 似 英语 这 样 的 语言 中 ， 有 几 十 万 个 单词 ， 因 此 将 每 个 
单词 映射 到 向 量 中 的 一 个 独立 的 维度 上 需要 付出 很 大 代价 。 而 HashingTF 使 用 每 个 单词 对 
所 需 向 量 的 长 度 $ 取 模 得 出 的 哈 希 值 ， 把 所 有 单词 映射 到 一 个 0 到 5-1 之 间 的 数字 上 。 由 
此 我 们 可 以 保证 生成 一 个 5 维 的 向 量 。 在 实践 中 ， 即 使 有 多 个 单词 被 映射 到 同一 个 哈 希 值 
上 ， 算 法 依然 适用 。MLlib 开发 者 推荐 将 5 设置 在 2* 到 2” 之 间 。 






























































HashingTF 可 以 一 次 只 运行 于 一 个 文档 中 ， 也 可 以 运行 于 整个 RDD 中 。 它 要 求 每 个 “ 广 
档 ” 都 使 用 对 象 的 可 选 代 序 列 来 表示 一 一 例如 Python 中 的 ist 或 Java 中 的 Collection。 
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例 11-7 在 Python 中 使 用 了 HashingTF。 





例 11-7: 在 Python 中 使 用 HashingTF 


>>> from pyspark.mLLib.feature import HashingTF 


>>> sentence = "hello hello world" 

>>> words = sentence.split() # 将 句子 切 分 为 一 串 单词 

>>> tf = HashingTF(10000) # 创建 一 个 向 量 ,其 尺寸 5 = 10,000 
>>> tf.transform(words) 

SparseVector(10000, {3065: 1.0, 6861: 2.0}) 














>>> rdd = sc.wholeTextFiles("data").map(lambda (name, text): text.split()) 
>>> tfVectors = tf.transform(rdd) # 对 整个 RDD 进 行 转化 操作 


在 真实 流水 线 中 ， 你 可 能 需要 在 把 文档 传 给 TF 之 前 ， 对 文档 进行 预 处 理 并 
提炼 单词 。 例 如 ， 你 可 能 需要 把 所 有 的 单词 转 为 小 写 、 去 除 标点 、 去 除 ng 
这 样 的 后 级。 为 了 得 到 最 佳 结 果 ， 你 可 以 在 map() 中 调用 一 些 类 似 NLTK 
(http:/www.nltk.org/) 这 样 的 单 节 点 自然 语言 处 理 库 。 









































当 你 构建 好 词 频 向 量 之 后 ， 你 就 可 以 使 用 IDF 来 计算 逆 文 档 频 率 ， 然 后 将 它们 与 词 频 相 乘 
来 计算 TF-IDF。 你 首先 要 对 IDF 对 象 调用 fit() 方法 来 获取 一 个 IDFModel， 它 代表 语料库 
中 的 逆 文 档 频 率 。 接 下 来 ， 对 模型 调用 transform() 来 把 TF 向 量 转 为 IDF 向 量 。 例 11-8 
展示 了 如 何 从 例 11-7 中 计算 IDF。 











例 11-8: 在 Python 中 使 用 TF-IDF 
from pyspark.mLLib .feature import HashingTF, IDF 
# 将 若干 文本 文件 读 取 为 TF 向 量 
rdd = sc.wholeTextFiles("data").map(lambda (name, text): text.split()) 


tf = HashingTF() 
tfVectors = tf.transform(rdd).cache() 


# 计算 IDF, 然 后 计算 TF-IDF 向 量 

idf = IDF() 

idfModel = idf.fit(tfVectors) 

tfIdfVectors = idfModel.transform(tfVectors) 


注意 ， 我 们 对 RDDtfvectors 调用 了 cache() 方法 ， 因 为 它 被 使 用 了 两 次 (一 次 是 训练 
IDF 模型 时 ， 一 次 是 用 IDEF 乘 以 TF 向 量 时 )。 


1. 缩放 

大 多 数 机 器 学 习 算 法 都 要 考虑 特征 向 量 中 各 元 素 的 幅 值 ， 并 且 在 特征 缩放 调整 为 平等 对 待 
时 表现 得 最 好 (例如 所 有 的 特征 平均 值 为 0， 标准 差 为 1) 。 当 构建 好 特征 向 量 之 后 ， 你 上 
以 使 用 MLlib 中 的 Standardscaler 类 来 进行 这 样 的 缩放 ， 同 时 控制 均值 和 标准 差 。 你 需要 
创建 一 个 Standardscaler ， 对 数据 集 调用 fit() 函数 来 获取 一 个 StandardScalerModel (也 
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就 是 为 每 一 列 计算 平均 值 和 标准 差 )， 然 后 使 用 这 个 模型 对 象 的 transform( ) 方法 来 缩放 一 
个 数据 集 ， 如 例 11-9 所 示 。 


例 11-9: 在 Python 中 缩放 向 量 


from pyspark.mLLib .feature import StandardScaler 








vectors = [Vectors.dense([-2.0, 5.0, 1.0]), Vectors.dense([2.0, 0.0, 1.0])] 
dataset = sc.parallelize(vectors) 

scaler = StandardScaler(withMean=True, withStd=True) 

model = scaler.fit(dataset) 

resuLt = model.transform(dataset) 


# 结果 :{[-0.7071，0.7671，0.0]，[0.7071，-0.7071，0.0]} 


2. 正规 化 

在 一 些 情况 下 ， 在 准备 输入 数据 时 ， 把 向 量 正 规 化 为 长 度 1 也 是 有 用 的 。 使 用 Normalizer 
类 可 以 实现 ， 只 要 使 用 Normalizer.transform(rdd) 就 可 以 了 。 默 认 情 况 下 ，NormaLizer 使 
用 慷 范式 (也 就 是 欧 几 里 得 距离 )， 不 过 你 可 以 给 Normalizer 传递 一 个 参数 p 来 使 用 





3. Word2Vec 

Word2Vec (https://code.google.com/p/word2vec/)“ 是 一 个 基于 神经 网 络 的 文本 特征 化 算法 ， 
可 以 用 来 将 数据 传 给 许多 下 游 算法 。Spark 在 mtlib.feature.Word2Vec 类 中 引入 了 该 算法 
的 一 个 实现 。 








要 训练 Word2Vec， 你 需要 传 给 它 一 个 用 String 类 (每 个 单词 用 一 个 ) 的 Iterable 表示 
的 语料库 。 和 前 面 的 “TF-IDF” 一 节 所 讲 的 很 像 ，Word2Vec 也 推荐 对 单词 进行 正规 化 处 
里 (例如 全 部 转 为 小 写 、 去 除 标 点 和 数字 )。 当 你 训练 好 模型 (通过 Word2Vec.fit(rdd)) 
之 后 ， 你 会 得 到 一 个 Word2VecModel， 塔 可 以 用 来 将 每 个 单词 通过 transform() 转 为 一 个 向 
量 。 注 意 ，Word2Vec 算法 中 模型 的 大 小 等 于 你 的 词 库 中 的 单词 数 乘 以 向 量 的 大 小 (向量 
大 小 默认 为 100)。 你 可 能 希望 筛选 掉 不 在 标准 字典 中 的 单词 来 控制 模型 大 小 。 一 般 来 说 ， 
比较 合适 的 词 库 大 小 约 为 100 000 个 词 。 














i 























11.5.2 ”统计 

不 论 是 在 即时 的 探索 中 ， 还 是 在 机 器 学 习 的 数据 理解 中 ， 基 本 的 统计 都 是 数据 分 析 的 重要 
部 分 。MLlib 通过 mllib.stat.Statistics 类 中 的 方法 提供 了 几 种 广泛 使 用 的 统计 函数 ， 这 
些 国 数 可 以 直接 在 RDD 上 使 用 。 一 些 常 用 的 国 数 如 下 所 列 。 
































。 Statistics.colStats(rdd) 


计算 由 向 量 组 成 的 RDD 的 统计 性 综述 ， 保 存 着 向 量 集合 中 每 列 的 最 小 值 、 最 大 值 、 





TI 
避 























注 4: 引用 Mikolov 等 人 所 写 文章 “Efficient Estimation of Word Representations in Vector Space,”2013 。 





196 | 第 11 章 


均值 和 方差 。 这 可 以 用 来 在 一 次 执行 中 获取 丰富 的 统计 信息 。 


。 Statistics.corr(rdd, method) 
计算 由 向 量 组 成 的 RDD 中 的 列 间 的 相关 算 阵 ， 使 用 皮尔 森 相 关 (Pearson correlation) 
或 斯 皮尔 曼 相关 (Spearman correlation) 中 的 一 种 (method 必须 是 pearson 或 spearman 
中 的 一 个 )。 


。 Statistics.corr(rdd1, rdd2, method) 
计算 两 个 由 浮 点 值 组 成 的 RDD 的 相关 甜 阵 ， 使 用 皮尔 森 相 关 或 斯 皮尔 曼 相关 中 的 一 种 


(method 必须 是 pearson 或 spearman 中 的 一 个 )。 


。 Statistics.chiSgqTest(rdd) 
计算 由 LabeledPoint 对 象 组 成 的 RDD 中 每 个 特征 与 标签 的 皮尔 森 独 立 性 测试 
(Pearson’s independence test) 结果 。 返 回 一 个 ChisqTestResult 对 象 ， 其 中 有 Pp 值 
(p-value)、 测 试 统计 及 每 个 特征 的 自由 度 。 标 签 和 特征 值 必须 是 分 类 的 ( 即 离 散 值 )。 





at 











除了 这 些 算法 以 外 ， 数 值 RDD 还 提供 几 个 基本 的 统计 函数 ， 例 如 mean()、stdev() 以 及 
sum()， 我 们 在 6.6 市 中 有 所 提 及 。 除 此 以 外 ，RDD 还 支持 sample() 和 sampleByKey(),， 使 
用 它们 可 以 构建 出 简单 而 分 层 的 数据 样本 。 


11.5.3 ”分 类 与 回归 

分 类 与 回归 是 监督 式 学 习 的 两 种 主要 形式 。 监 督 式 学 习 指 算法 尝试 使 用 有 标签 的 训练 数据 
(也 就 是 已 知 结果 的 数据 点 ) 根据 对 象 的 特征 预测 结果 。 分 类 和 回归 的 区 别 在 于 预测 的 变 
量 的 类 型 : 在 分 类 中 ， 预 测 出 的 变量 是 离散 的 〈 也 就 是 一 个 在 有 限 集中 的 值 ， 叫 作 类 别 ) ; 
比如 ,分 类 可 能 是 将 邮件 分 为 垃圾 邮件 和 非 垃圾 邮件 ， 也 有 可 能 是 文本 所 使 用 的 语言 。 在 
回归 中 ， 预 测 出 的 变量 是 连续 的 (例如 根据 年 龄 和 体重 预测 一 个 人 的 身高 )。 




















一 























分 类 和 回归 都 会 使 用 MLlib 中 的 LabeledPoint 类 。11.4 节 中 提 过 ， 这 个 类 在 mLLib. 
regression 包 中 。 一 个 LabeledPoiint 其 实 就 是 由 一 个 label (Label 总 是 一 个 Double 值 ， 
不 过 可 以 为 分 类 算法 设 为 离散 整数 ) 和 一 个 features 问 量 组 成 。 

















对 于 二 元 分 类 ，MLlib 预期 的 标签 为 0 或 1。 在 某 些 情况 下 可 能 会 使 用 -1 和 
1， 但 这 会 导致 错误 的 结果 。 对 于 多 元 分 类 ，MLlib 预期 标签 范围 是 从 0 到 
C-1， 其 中 C 表示 类 别 数 量 。 









































MLlib 包含 多 种 分 类 与 回归 的 算法 ， 其 中 包括 简单 的 线性 算法 以 及 决策 树 和 森林 算法 。 
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1. 线性 回归 
线性 回归 是 回归 中 最 常用 的 方法 之 一 ， 是 指 用 特征 的 线性 组 合 来 预测 输出 值 。MLlib 也 文 
持 Z' 和 的 正则 的 回归 ， 通常 称 为 Lasso 和 ridge 回归 。 



































线性 回归 算法 可 以 使 用 的 类 包括 mllib.regression.LinearRegressionWithSGD、LassoWithsGD 
以 及 RidgeRegressionNithsGD。 这 遵循 了 MLlib 中 常用 的 命名 模式 ， 即 对 于 涉及 多 个 算法 的 
问题 ， 在 类 名 中 使 用 “With” 来 表明 所 使 用 的 算法 。 这 里 ，SGD 代表 的 是 随机 梯度 下 降 法 。 








这 些 类 都 有 几 个 可 以 用 来 对 算法 进行 调 优 的 参数 。 
。 NumIterations 


要 运行 的 迭代 次 数 (默认 值 ，1660)。 














。 stepSize 


梯度 下 降 的 步 长 (默认 值 ， 1.0)。 





。 intercept 
是 否 给 数据 加 上 一 个 干扰 特征 或 者 偏差 特征 一 一 也 就 是 一 个 值 始 终 为 1 的 特征 (默认 
值 : false)。 


。 regParam 


Lasso 和 ridge 的 正规 化 参数 (默认 值 : 1.9)。 


调用 算法 的 方式 在 不 同 语言 中 略 有 不 同 。 在 Java 和 Scala 中 ， 你 需要 创建 一 个 
LinearRegressionWithsGD 对 象 ， 调 用 它 的 setter 方法 来 设置 参数 ， 然 后 调用 run() 来 训练 
模型 。 在 Python 中 ， 你 需要 使 用 类 的 方法 LinearRegressionWithsGD.train()， 并 对 其 传 
递 键 值 对 参数 。 在 这 两 种 情况 中 ， 你 都 需要 传递 一 个 由 LabeledPoint 组 成 的 RDD， 如 例 
11-10 至 例 11-12 所 示 。 























例 11-10: Python 中 的 线性 回归 
from pyspark.mllib.regression import LabeLedPoint 
from pyspark.mllib.regression import LinearRegressionWithSGD 








points = # (创建 LabeledPoint 组 成 的 RDD) 
model = LinearRegressionWithsGD.train(points, iterations=200, intercept=True) 
print "weights: %s, intercept: %s" % (model.weights, model.intercept) 


例 11-11: Scala 中 的 线性 回归 


import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.regression.LinearRegressionWithSGD 


val points: RDD[LabeLedPoint] = // ... 

val lr = new LinearRegressionWithSGD().setNumIterations(200).setIntercept(true) 
val model = lr.run(points) 

println("weights: %s, intercept: %s".format(model.weights, model.intercept)) 





例 11-12: Java 中 的 线性 回归 


import org.apache.spark.mllib.regression.LabeledPoint; 
import org.apache.spark.mllib.regression.LinearRegressionWithSGD; 
import org.apache.spark.mllib.regression.LinearRegressionModel; 


JavaRDD<LabeLedPoint> points = // ... 
LinearRegressionWithSsGD Lr = 

new LinearRegressionWithSGD().setNumIterations(200).setIntercept(true); 
LinearRegressionModel model = lr.run(points.rdd()); 
System.out.printf("weights: %s, intercept: %s\n", 

model.weights(), model.intercept()); 





注意 ， 在 Java 中 ， 需 要 通过 调用 .rdd() 方法 把 JavaRDD 转 为 Scala 中 的 RDD 类 。 这 种 模式 
在 MLlib 中 随处 可 见 ， 因 为 MLlib 方法 被 设计 为 既 可 以 用 Java 调用 ， 也 可 以 用 Scala 调用 。 











一 旦 训练 完成 ， 所 有 语言 中 返回 的 LinearRegressionModel 都 会 包含 一 个 predict() 函数 ， 
可 以 用 来 对 单个 特征 向 量 预测 一 个 值 。RidgeRegressionWithSGD 和 LassowithsGD 的 行为 类 
似 ， 并 且 也 会 返回 一 个 类 似 的 模型 类 。 事 实 上 ， 这 种 通过 setter 方法 调 市 算法 参数 ， 然 后 
返回 一 个 带 有 predict() 方法 的 Model 对 象 的 模式 ， 在 MLlib 中 很 常见 。 





























2. 逻辑 回归 

逻辑 回归 是 一 种 二 元 分 类 方法 ， 用 来 寻找 一 个 分 隔 阴 性 和 阳性 示例 的 线性 分 割 平面 。 
在 MLlib 中 ， 它 接收 一 组 标签 为 0 或 1 的 LabeledPoint， 返 回 可 以 预测 新 点 的 分 类 的 
LogisticRegressionModel 对 象 。 

















逻辑 回归 算法 的 API 和 前 小 一 节 中 讲 的 线性 回归 十 分 相似 。 两 者 的 区 别 之 一 在 于 ， 有 两 
种 可 以 用 来 解决 逻辑 回归 问题 的 算法 : SGD 和 LBFGS 。LBFGS 一 般 是 最 好 的 选择 ， 但 是 
在 早期 的 MLlib 版 本 ( 早 于 Spark 1.2) 中 不 可 用 。 这 些 算法 通过 mllib.classification. 
LogisticRegressionWithLBFGS 和 WithsGD 类 提供 给 用 户 ， 接 口 和 LinearRegressionWithsGD 
相似 。 它 们 接收 的 参数 和 线性 回归 完全 一 样 ( 详 见 前 一 小 节 )。 











这 两 个 算法 中 得 出 的 LogisticRegressionModel 可 以 为 每 个 点 求 出 一 个 在 0 到 1 之 间 的 
得 分 ， 之 后 会 基于 一 个 阅 值 返回 0 或 1: 默认 情况 下 ， 对 于 0.5， 它 会 返回 1。 你 可 以 通 
过 setThreshold() 改变 阅 值 ， 也 可 以 通过 clearThreshold() 去 除 阅 值 设置 ,这样 的 话 
predict() 就 会 返回 原始 得 分 。 对 于 阴性 阳性 示例 各 半 的 均衡 数据 集 ， 我 们 推荐 保留 0.5 作 
为 国 值 。 对 于 不 平衡 的 数据 集 ， 你 可 以 通过 提升 国 值 来 减少 假 阳性 数据 的 数量 (也 就 是 提 
高 精确 率 ， 但 是 也 降低 了 召回 率 ) ， 也 可 以 通过 降低 国 值 来 减少 假 阴 性 数据 的 数量 。 





























注 5: LBFGS 是 牛顿 法 的 近似 ， 它 可 以 在 比 随机 梯度 下 降 更 少 的 迭代 次 数 内 收 和 你。 详 见 http://en.wikipedia. 
org/wiki/Limited-memory_BFGS。 
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在 使 用 逻辑 回归 时 ， 将 特征 提前 缩放 到 相同 范围 内 通常 比较 重要 。 你 可 以 使 
用 MLlib 的 StandardScaler 来 实现 特征 缩放 ， 如 11.5.1 节 中 的 “缩放 ”小 节 
所 述 。 








3. 支持 向 量 机 

支持 问 量 机 (简称 SVM) 算法 是 另 一 种 使 用 线性 分 割 平面 的 二 元 分 类 算法 ， 同 样 只 预期 0 或 
者 1 的 标签 。 通 过 SVMWithsGD 类 ， 我 们 可 以 访问 这 种 算法 ， 它 的 参数 与 线性 回归 和 逻辑 回归 
的 参数 差不多 。 返 回 的 SVMModel 与 LogisticRegressionModel 一 样 使 用 国 值 的 方式 进行 预测 。 


4. 朴素 贝 叶 斯 

朴素 贝 叶 斯 (Naive Bayes) 算法 是 一 种 多 元 分 类 算法 ， 它 使 用 基于 特征 的 线性 函数 计算 将 
一 个 点 分 到 各 类 中 的 得 分 。 这 种 算法 通常 用 于 使 用 TF-IDF 特征 的 文本 分 类 ， 以 及 其 他 一 
些 应 用 。MLlib 实现 了 多 项 朴素 贝 叶 斯 算法 ， 需 要 非 负 的 频次 (比如 词 频 ) 作为 输入 特征 。 




















在 MLlib 中 ， 你 可 以 通过 mllib.classification.NaiveBayes 类 来 使 用 相 素 贝 叶 斯 算法 。 它 支 
持 一 个 参数 Lambda (Python 中 是 Lambda_)， 用 来 进行 平滑 化 。 你 可 以 对 一 个 由 LabeledPoint 
组 成 的 RDD 调用 朴素 贝 叶 斯 算法 ， 对 于 C 个 分 类 ， 标 签 值 范 围 在 0 至 C-1 之 间 。 


返回 的 NaiveBayesModel 让 我 们 可 以 使 用 predict() 预测 对 某 点 最 合适 的 分 类 ， 也 可 以 访问 
训练 好 的 模型 的 两 个 参数 : 各 特征 与 各 分 类 的 可 能 性 矩阵 theta (对 于 C 个 分 类 和 DD 个 特 
征 的 情况 ， 和 矩阵 大 小 为 C x 万 )， 以 及 表示 先 验 概率 的 C 维 向 量 pt。 


5. 决策 树 与 随机 森林 

决策 树 是 一 个 灵活 的 模型 ， 可 以 用 来 进行 分 类 ， 也 可 以 用 来 进行 回归 。 决 策 树 以 节点 树 的 
形式 表示 ， 每 个 节点 基于 数据 的 特征 作出 一 个 二 元 决定 〈 比 如 ， 这 个 人 的 年 龄 是 否 大 于 
20 ? )， 而 树 的 每 个 叶 布 点 则 包含 一 种 预测 结果 (例如 ， 这 个 人 是 不 是 会 买 一 个 产品 ?)。 
决策 树 的 吸引 力 在 于 模型 本 身 容易 检查 ， 而 且 决 策 树 既 支 持 分 类 的 特征 ， 也 支持 连续 的 特 
征 。 图 11-2 展示 了 一 个 决策 树 的 示例 。 


gender = female? 






































| 
on 





[on 








人 不 会 江 
P= EA 





图 11-2: 一 个 预测 用 户 是 否 会 购买 一 件 产品 的 决策 树 示例 





200 | 第 11 章 








trainRegressor() 来 训练 决策 树 。 和 


在 MLlib 中 ， 你 可 以 使 用 mLLib.tree.DecisionTree 类 中 的 静态 方法 trainClassifier() 和 











其 他 有 些 算法 不 同 的 是 ，Java 和 Scala 的 API 也 使 用 








静态 方法 ， 而 不 使 用 setter 方法 定制 的 DecisionTree 对 象 。 该 训练 方法 接收 如 下 所 列 参 数 。 


。 data 
LabeLedPoint 组 成 的 RDD。 














。 numClasses ( 仅 用 于 分 类 时 ) 
要 使 用 的 类 别 数量 。 


。 impurity 


节点 的 不 纯净 度 测量 ， 对 于 分 类 可 以 为 gini 或 entropy， 对 于 回归 则 必须 为 variance。 


。 maxDepth 


树 的 最 大 深度 〈 默 认 值 : 5)。 














。 maxBins 











在 构建 各 节点 时 将 数据 分 到 多 少 个 箱子 中 (推荐 值 ，32)。 


。 CcategoricalFeaturesInfo 











一 个 映射 表 ， 用 来 指定 哪些 特征 是 分 类 的 ， 以 及 它们 各 有 多 少 个 分 类 。 例 如 ， 如 果 特 征 


1 是 一 个 标签 为 0 或 1 的 二 元 特 和 





E， 特 征 2 是 一 个 标签 为 0、1 或 2 的 三 元 特征 ， 你 就 


应 该 传递 {1: 2，2: 3}。 如 果 没 有 特征 是 分 类 的 ， 就 传递 一 个 空 的 映射 表 。 


MLlib 的 在 线 文档 (http://spark.apache.org/docs/latest/mllib-decision-tree.html) 中 包含 了 对 
此 处 所 使 用 算法 的 详细 解释 。 算 法 的 开销 会 随 训 练 样本 数目 、 特 征 数量 以 及 maxBins 参数 
值 进行 线性 增长 。 对 于 大 规模 数据 集 ， 你 可 能 需要 使 用 较 低 的 maxBins 值 来 更 快 地 训练 模 





型 ， 尽 管 这 也 会 降低 算法 的 质量 。 


train() 方法 会 返回 一 个 DecisionT 




















reeModel 对 象 。 你 可 以 使 用 这 个 对 象 的 predict() 


方法 来 对 一 个 新 的 特征 向 量 预测 对 应 的 值 ， 或 者 预测 一 个 向 量 RDD。 你 也 可 以 使 用 
toDebugstring() 来 输出 这 棵 树 。 这 个 对 象 是 可 序列 化 的 ， 所 以 你 可 以 用 Java 序列 化 将 它 








保存 ， 然 后 在 另 一 个 程序 中 读 取出 来 





最 后 ， 在 Spark 1.2 中 ，MLlib 在 Java 





o 


和 Scala 中 添加 了 试验 性 的 RandomForest 类 ， 可 以 用 


来 构建 一 组 树 的 组 合 ， 也 被 称 为 随机 森林 。 它 可 以 通过 RandomForest.trainClassifier 和 
trainRegressor 使 用 。 除 了 刚才 列 出 的 每 棵 树 对 应 的 参数 外 ，RandomForest 还 接收 如 下 参数 。 





。 NumTrees 


要 构建 的 树 的 数量 。 提 高 numTrees 可 以 降低 对 训练 数据 过 度 拟 合 的 可 能 性 。 
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。 featureSubsetStrategy 
在 每 个 节点 上 作 决 定时 需要 考虑 的 特征 数量 。 可 以 是 auto (让 库 来 自动 选择 )、all、 
sqrt、1Log2 以 及 onethird; 越 大 的 值 所 花费 的 代价 越 大 。 











。 seed 


所 使 用 的 随机 数 种 子 。 


随机 森林 算法 返回 一 个 WeightedEnsembleModel 对 象 ， 其 中 包含 几 个 决策 树 (在 weakHypotheses 
字段 中 ， 权 重 由 weakHypothesisWeights 决定 ) ， 可 以 对 RDD 或 vector 调用 predict()。 它 
还 有 一 个 toDebugstring 方法 ， 可 以 打印 出 其 中 所 有 的 树 。 











11.5.4 聚 类 

聚 类 算法 是 一 种 无 监督 学 习 任 务 ， 用 于 将 对 象 分 到 具有 高 度 相 似 性 的 聚 关 中 。 前 面 提 到 的 
监督 式 任务 中 的 数据 都 是 带 标 签 的 ， 而 聚 类 可 以 用 于 无 标签 的 数据 。 该 算法 主要 用 于 数据 
探索 (查看 一 个 新 数据 集 是 什么 样子 ) 以 及 异常 检测 〈 识 别 与 任意 聚 类 都 相距 较 远 的 点 )。 








KMeans 

MLlib 包含 聚 类 中 流行 的 K-means 算法 ， 以 及 一 个 叫 作 K-means|| 的 变种 ， 可 以 为 并 行 环 
卉 提供 更 好 的 初始 化 策略 。"“K-means|| 的 初始 化 过 程 与 K-means++ 在 配置 单 节 点 时 所 进行 
的 初始 化 过 程 非 常 相 似 。 











K-means 中 最 重要 的 参数 是 生成 的 聚 类 中 心 的 目标 数量 K。 事 实 上 ， 你 几乎 不 可 能 提前 知 
道 聚 类 的 “真实 ”数量 ， 所 以 最 佳 实践 是 尝试 儿 个 不 同 的 K 值 ， 直 到 聚 类 内 部 平均 距离 不 
再 显著 下 降 为 止 。 然 而 ， 算 法 一 次 只 能 接收 一 个 K 值 。 除 了 以外，MLlib 中 的 K-means 
还 接收 以 下 几 个 参数 。 








。 initializationMode 
用 来 初始 化 聚 类 中 心 的 方法 ， 可 以 是 “k-means||” 或 者 “random”; k-means|| (默认 
值 ) 一 般 会 带 来 更 好 的 结果 ， 但 是 开销 也 会 略 高 一 些 。 





。 maxIterations 
运行 的 最 大 友 代 次 数 (默认 值 ，169)。 

。 runs 
算法 并 发 运行 的 数目 。MLIib 的 K-means 算法 支持 从 多 个 起 点 并 发 执行 ， 然 后 选择 最 佳 
结果 ， 这 也 是 获取 较 好 的 整体 模型 的 一 种 不 错 的 方法 〈K-means 的 运行 可 以 停止 在 本 地 
最 小 值 上 ) 。 











注 6: 最 早 介绍 K-means|| 的 文章 是 Bahmani 等 人 所 著 的 “Scalable K-Means++,”VLDB 2008。 
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和 其 他 算法 一 样 ， 当 你 要 调用 K-means 算法 时 ， 你 需要 创建 mllib.clustering.KMeans 
对 象 (在 Java/Scala 中) 或 者 调用 KMeans.train (在 Python 中 )。 它 接收 一 个 vector 
组 成 的 RDD 作为 参数 。K-means 返回 一 个 KMeansModel 对 象 ， 该 对 象 允 许 你 访问 其 
clusterCenters 属性 ( 聚 类 中 心 ， 是 一 个 向 量 的 数组 ) 或 者 调用 predict() 来 对 一 个 新 的 
向 量 返回 它 所 属 的 聚 类 。 注 意 ，predict() 总 是 返回 和 该 点 距离 最 近 的 聚 类 中 心 ， 即 使 这 
个 点 跟 所 有 的 聚 类 都 相距 很 远 。 


11.5.5 协同 过 滤 与 推荐 
协同 过 滤 是 一 种 根据 用 户 对 各 种 产品 的 交互 与 评分 来 推荐 新 产品 的 推荐 系统 技术 。 协 同 过 
ne 它 只 需要 输入 一 系列 用 户 /产品 的 交互 记录 : 无 论 是 “ 显 式 ”的 交 
互 〈 例 如 在 购物 网 站 上 进行 评分 ) 还 是 “ 隐 式 ”的 (例如 用 户 访问 了 一 个 产品 的 页 面 但 是 
没有 对 产品 评分 ) 交互 丝 可 。 仅 仅 根据 这 些 交 互 ， 协 同 过 滤 算法 就 能 够 知道 哪些 产品 之 间 
比较 相似 (因为 相同 的 用 户 与 它们 发 生 了 交互 ) 以 及 哪些 用 户 之 间 比 较 相 似 ， 然 后 就 可 以 
作出 新 的 推荐 。 
尽管 MLlib 的 API 使 用 了 “用 户 ” 和 “产品 ”的 概念 ， 但 你 也 可 以 将 协同 过 滤 用 于 其 他 应 
用 场景 中 ， 比 如 在 社交 网 络 中 推荐 用 户 ， 为 文章 推荐 要 添加 的 标签 ， 为 电台 推荐 歌曲 等 。 
交替 最 小 二 乘 
MLlib 中 包含 交替 最 小 二 乘 (简称 ALS) 的 一 个 实现 ， 这 是 一 个 协同 过 滤 的 常用 算法 ， 可 
以 很 好 地 扩展 到 集群 上 。" 它 位 于 mllib.recommendation.ALS 类 中 。 
ALS 会 为 每 个 用 户 和 产品 都 设 一 个 特征 向 量 ， 这 样 用 户 向 量 与 产品 向 量 的 点 积 就 接近 于 他 
们 的 得 分 。 它 接收 下 面 所 列 这 些 参数 。 
。 rank 
使 用 的 特征 向 量 的 大 小 ;更 大 的 特征 向 量 会 产生 更 好 的 模型 ， 但 是 也 需要 花费 更 大 的 计 
算 代 价 (默认 值 : 10)。 
。 iterations 
要 执行 的 迭代 次 数 (默认 值 ，10)。 
。 lambda 
正则 化 参数 (默认 值 ， 9.91)。 





















































。 alpha 
用 来 在 隐 式 ALS 中 计算 置信 和 度 的 常量 (默认 值 ，1.9)。 








注 7; 两 篇 对 网 络 规模 数据 的 ALS 算法 的 研究 论文 分 别 是 Zhou 等 人 撰写 的 “Large-Scale Parallel Collaborative 
Filtering for the Netflix Prize” 和 Hu 等 人 撰写 的 “Collaborative Filtering for Implicit Feedback Datasets,” 
都 发 表 于 2008 年 。 
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。 NumUserBlocks, numproductBlocks 
切 分 用 户 和 产品 数据 的 块 的 数目 ， 用 来 控制 并 行 度 ， 你 可 以 传递 -1 来 让 MLlib 自动 决 
定 (默认 行为 )。 
要 使 用 ALS 算法 ， 你 需要 有 一 个 由 mllib.recommendation.Rating 对 象 组 成 的 RDD， 其 
中 每 个 包含 一 个 用 户 DD、 一 个 产品 ID 和 一 个 评分 (要么 是 显 式 的 评分 ， 要 么 是 隐 式 反 
馈 ;， 参见 接 下 来 的 讨论 )。 实 现 过 程 中 的 一 个 挑战 是 每 个 ID 都 需要 是 一 个 32 位 的 整 型 值 。 
如 果 你 的 ID 是 字符 串 或 者 更 大 的 数字 ， 我 们 推荐 你 直接 在 ALS 中 使 用 ID 的 哈 希 值 ， 即 
使 有 两 个 用 户 或 者 两 个 产品 映射 到 同一 个 ID 上 ， 总 体 结果 依然 会 不 错 。 还 有 一 种 办 法 是 
broadcast() 一 张 从 产品 D 到 整 型 值 的 表 ， 来 赋 给 每 个 产品 独特 的 ID。 








ALS 返回 一 个 MatrixFactorizationModel 对 象 来 表示 结果 ， 可 以 调用 predict() 来 对 一 个 由 
(userID，productID) 对 组 成 的 RDD 进行 预测 评分 。 你 也 可 以 使 用 modeL.recommendProducts 
(userId，numProducts) 来 为 一 个 给 定 用 户 找 到 最 值得 推荐 的 前 numProduct 个 产品 。 注 
意 ， 和 MLlib 中 的 其 他 模型 不 同 ，MatrixFactorizationModel 对 象 很 大 ， 为 每 个 用 户 和 
产品 都 存储 了 一 个 向 量 。 这 样 我 们 就 不 能 把 它 存 到 磁盘 上 ， 然 后 在 另 一 个 程序 中 读 取 回 
来 。 不 过 ， 你 可 以 把 模型 中 生成 的 特征 向 量 RDD， 也 就 是 model.userFeatures 和 model. 
productFeatures 保存 到 分 布 式 文件 系统 上 。 


最 后 ，ALS 有 两 个 变种 : 显 式 评分 (默认 情况 ) 和 隐 式 反馈 (通过 调用 ALS.trainImplicit() 
而 非 ALS.train() 来 打开 )。 用 于 显 式 评分 时 ， 每 个 用 户 对 于 一 个 产品 的 评分 需要 是 一 个 得 分 
(例如 1 到 5 星 )， 而 预测 出 来 的 评分 也 是 得 分 。 而 用 于 隐 式 反馈 时 ， 每 个 评分 代表 的 是 用 户 
会 和 给 定 产 品 发 生 交 互 的 置信 和 度 (比如 随 着 用 户 访问 一 个 网 页 次 数 的 增加 ， 评 分 也 会 提高 )， 
预测 出 来 的 也 是 置信 和 度 。 关 于 对 隐 式 反馈 使 用 ALS 算法 ，Hu 等 人 所 撰写 的 “Collaborative 
Filtering for Implicit Feedback Datasets,”ICDM 2008 中 有 更 为 详细 的 介绍 。 


11.5.6 ” 降 维 


1. 主 成 分 分 析 

给 定 一 个 高 维 空间 中 的 点 的 数据 集 ， 我 们 经 常 需要 减少 点 的 维度 ， 来 使 用 更 简单 的 工具 对 
其 进行 分 析 。 例 如 ， 我 们 可 能 想 要 在 二 维 平面 上 画 出 这 些 点 ， 或 者 只 是 想 减少 特征 的 数量 
使 得 模型 训练 更 加 高 效 。 
































机 器 学 习 社 区 中 使 用 的 主要 的 降 维 技术 是 主 成 分 分 析 (简称 PCA，https://en.wikipedia.org/ 
wiki/Principal_ component_analysis) 。 在 这 种 技术 中 ， 我 们 会 把 特征 映射 到 低 维 空间 ， 让 数 
据 在 低 维 空间 表示 的 方差 最 大 化 ， 从 而 忽略 一 些 无 用 的 维度 。 要 计算 出 这 种 映射 ， 我 们 要 
构建 出 正规 化 的 相关 矩阵， 并 使 用 这 个 矩阵 的 奇异 向 量 和 奇异 值 。 与 最 大 的 一 部 分 奇异 值 
相对 应 的 奇异 向 量 可 以 用 来 重建 原始 数据 的 主要 成 分 。 


























注 8: 在 Java 中 ， 从 一 个 由 Tuple? 组 成 的 JavaRDD 开始 ， 需 要 先 对 它 调用 .rdd() 方法 。 
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PCA 目前 只 在 Java 和 Scala (MLlib 1.2) 中 可 用 。 要 调用 PCA， 你 首先 要 使 用 mLLib. 
linalg.distributed.RowMatrix 类 来 表示 你 的 和 矩阵， 然后 存储 一 个 由 Vector 组 成 的 RDD， 
每 行 一 个 。" 之 后 ， 你 就 可 以 如 例 11-13 所 示 那 样 调用 PCA 算法 。 








例 11-13: Scala 中 的 PCA 


import org.apache.spark.mllib.linalg.Matrix 
import org.apache.spark.mllib.linalg.distributed.RowMatrix 


val points: RDD[Vector] = // ... 
val mat: RowMatrix = new RowMatrix(points) 
val pc: Matrix = mat.computeprincipalComponents(2) 





// 将 点 投影 到 低 维 空间 中 
val projected = mat.multiply(pc).rows 














// 在 投影 出 的 二 维 数据 上 训练 k-means 模型 


val model = KMeans.train(projected, 10) 


在 这 个 例子 中 ， 投 影 出 的 RDD 包含 原始 RDD 中 的 points 的 二 维 版 本 ， 可 以 用 来 作 图 或 
进行 其 他 MLlib 算法 ， 比 如 使 用 K-means 进行 聚 类 。 














9 








注意 ，computePrincipalComponents() 返回 的 是 mllib.linalg.Matrix 对 象 ， 是 一 个 和 


Vector 相似 的 表示 稀疏 矩阵 的 工具 类 。 你 可 以 调用 toArray 方法 获取 底层 的 数据 。 


2. 奇异 值 分 解 
MLlib 也 提供 了 低层 的 奇异 值 分 解 (简称 SVD) 原 语 。SVD 会 把 一 个 m x 的 矩阵 A 分 
解 成 三 个 矩阵 4 = UZV"， 其 中 : 





。U 是 一 个 正 交 矩阵 ， 它 的 列 被 称 为 左 奇 异 向 量 ， 

。 是 一 个 对 角 线 上 的 值 均 为 非 负 数 并 降序 排列 的 对 角 和 矩阵 ， 它 的 对 角 线 上 的 值 被 称 为 奇 
异 值 ， 

。 本 是 一 个 正 交 秆 了 泗 ， 它 的 列 被 称 为 右 奇异 向 量 。 











对 于 大 型 矩阵 ， 通 和 常 不 需要 进行 完全 分 解 ， 只 需要 分 解 出 靠 前 的 奇异 值 和 与 之 对 应 的 奇异 
问 量 即 可 。 这 样 可 以 节省 存储 空间 、 降 品 ， 并 有 利于 恢复 低 秩 和 矩阵 。 如 果 保 留 前 个 奇异 
值 ， 那 么 结果 算 阵 就 会 是 U:m xk, :kxXk 以 及 Vi:n xk。 

















要 进行 分 解 ， 应 调用 RowMatrix 类 的 computesVD 方法 ， 如 例 11-14 所 示 。 


例 11-14: Scala 中 的 SVD 
// 计算 RowMatrix 托 阵 的 前 260 个 奇异 值 及 其 对 应 的 奇异 向 量 


val svd: SingularValueDecomposition[RowMatrix, Matrix] = 
mat.computeSVD(20, computeU=true) 























注 9: 在 Java 中 , 从 一 个 由 Vector 组 成 的 JavaRDD 开始 , 我 们 需要 对 它 调用 .rdd() 方法 把 它 转 为 一 个 Scala 
的 RDD。 
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val U: RowMatrix = svd.U // U 是 一 个 分 布 式 RowMatrix 
val s: Vector = svd.s  // 奇异 值 用 一 个 局 部 稠密 向 量 表示 
val V: Matrix = svd.V // V 是 一 个 局 部 稠密 矩阵 











11.5.7 ”模型 评估 

无 论 机 器 学 习 任务 使 用 的 是 何 种 算法 ， 模 型 评估 都 是 端 到 端 机 器 学 习 流 水 线 的 一 个 重要 环 
节 。 许 多 机 器 学 习 任 务 可 以 使 用 不 同 的 模型 来 应 对 ， 而 且 即 使 使 用 的 是 同一 个 算法 ， 参 数 
设置 也 可 以 带 来 不 同 的 结果 。 不 仅 如 此 ， 我 们 还 要 基 虑 模型 对 训练 数据 过 度 拟 合 的 风险 ， 
因此 你 最 好 通过 在 另 一 个 数据 集 上 测试 模型 来 对 模型 进行 评估 ， 而 不 是 使 用 训练 数据 集 。 


在 本 书写 作 时 (对 应 于 Spark 1.2) ，MLlib 包含 一 组 试验 性 模型 评估 函数 ， 不 过 只 能 在 
Java 和 Scala 中 使 用 。 这 些 函 数 在 mllib.evaluation 包 中 ,根据 问题 的 不 同 ， 它 们 在 
BinaryClassificationMetrics 和 MulticlassMetrics 等 这 些 不 同 的 类 中 。 使 用 这 些 类 ， 你 
可 以 从 由 预测， 事实 ) 对 组 成 的 RDD 上 创建 出 一 个 Metrics 对 象 ， 然 后 计算 诸如 精确 
率 、 召 回 率 、 接 受 者 操作 特性 (ROC) 曲线 下 的 面积 等 指标 。 这 些 方法 应 该 运行 在 一 个 非 
训练 集 的 测试 集 上 (比如 在 训练 前 先 划 出 20% 的 数据 )。 你 可 以 使 用 map() 函数 将 你 的 模 
型 应 用 到 测试 数据 集 上 ， 生 成 由 (预测 ， 事 实 ) 对 组 成 的 RDD。 


在 将 来 的 Spark 版 本 中 ， 本 章 末 尾 所 介绍 的 流水 线 API 有 望 对 所 有 语言 3 引 入 评估 函数 。 通 
过 流水 线 API， 你 可 以 定义 一 个 机 器 学 习 算 法 流水 线 以 及 一 个 评估 标准 ， 然 后 系统 就 可 以 
使 用 交叉 验证 自动 搜索 参数 并 选择 出 最 好 的 模型 。 


11.6 一些 提示 与 性 能 考量 


11.6.1 准备 特征 

尽管 机 器 学 习 演 讲 中 经 常 着 重 强调 所 使 用 的 算法 ， 但 切记 在 实践 中 ， 每 个 算法 的 好 坏 只 取 
决 于 你 所 使 用 的 特征 ! 许多 从 事 大 规模 数据 机 器 学 习 的 人 员 都 认为 特征 准备 是 大 规模 机 器 
学 习 中 最 重要 的 一 步 。 添 加 信息 更 丰富 的 特征 (例如 与 其 他 数据 集 连 接 以 引入 更 多 信息 ) 
与 将 现 有 特征 转 为 合适 的 向 量 表 示 (例如 缩放 向 量 ) 都 能 极 大 地 帮助 改进 结果 。 



















































































本 书 将 不 会 对 特征 准备 作 全 面 讨论 ， 但 是 我 们 鼓励 你 参考 其 他 机 器 学 习 书 籍 以 了 解 更 多 信 
息 。 不 过 ， 有 以 下 这 些 通用 的 提示 值得 注意 ， 尤 其 是 对 MLlib 来 说 。 























。 缩放 输入 特征 。 像 11.5.1 节 的 “伸缩 ”小 节 中 讲解 的 那样 ， 使 用 Standardscaler 处 理 
特征 来 平等 对 待 特征 。 

。 正确 提取 文本 特征 。 使 用 诸如 NLTK (http://www.nltk.org) 这 样 的 外 部 库 来 提 词 ， 在 使 

用 TF-IDF 提取 特征 时 ， 在 有 代表 性 的 语料库 上 使 用 IDF。 
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。 为 分 类 标 上 正确 的 标签 .MLlib 要 求 分 类 的 标签 是 0 到 C-1 之 间 , 其 中 C 表 示 分 类 的 总 数 。 


11.6.2 配置 算法 

在 正规 化 选项 可 用 时 ，MLlib 中 的 大 多 数 算法 都 会 在 正则 化 打开 时 表现 得 更 好 (在 预测 
准确 度 方面 )。 此 外 ， 大 多 数 基 于 SGD 的 算法 需要 大 约 100 轮 迭 代 来 获得 较 好 的 结果 。 
MLlib 尝试 提供 合适 的 默认 值 ， 但 是 你 应 该 尝试 增加 达 代 次 数 ， 来 看 看 是 否 能 够 提高 精确 
度 。 例 如 ， 使 用 ALS 算法 时 ，rank 的 默认 值 10 相对 较 低 ， 所 以 你 应 该 尝试 提高 这 个 值 。 
确保 在 评估 这 些 参数 变化 时 将 测试 数据 排除 在 训练 集 之 外 。 















































11.6.3 缓存 RDD 以 重复 使 用 

MLlib 中 的 大 多 数 算法 都 是 进 代 的 ， 对 数据 进行 反复 操作 。 因 此 ， 在 把 输入 数据 集 传 给 
MLlib 前 使 用 cache() 将 它 缓 存 起 来 是 很 重要 的 。 即 使 数据 在 内 存 中 放 不 下 ， 你 也 应 该 尝 
试 persist(StorageLeveL.DISK_ONLY) 。 








在 Python 中 ，MLlib 会 把 数据 集 在 从 Python 端 传 到 Java 端 时 在 Java 端 自动 缓存 ， 因 此 没 
有 必要 缓存 你 的 Python RDD， 除 非 你 在 自己 的 程序 中 还 要 用 到 它 。 而 在 Scala 和 Java 中 ， 
则 需要 由 你 来 决定 是 否 执行 缓存 操作 。 

















11.6.4 ”识别 稀 足 程度 

当 你 的 特征 向 量 包含 很 多 零 时 ， 用 稀 政 格式 存储 这 些 向 量 会 为 大 规模 数据 集 方 省 巨大 的 时 
间 和 空间 。 在 空间 方面 ， 当 至 多 三 分 之 二 的 位 为 非 零 值 时 ，MLlib 的 稀 玻 表示 比 它 的 稠密 
表示 要 小 。 在 数据 处 理 代价 方面 ， 当 至 多 10% 的 位 为 非 零 值 时 ， 稀 玻 向 量 所 要 花费 的 代价 
也 会 更 小 。( 这 是 因为 使 用 稀疏 表示 需要 对 向 量 中 的 每 个 元 素 执行 的 指令 比 使 用 稠密 向 量 
表示 时 要 多 。) 但 是 如 果 使 用 稀 玻 表示 能 够 让 你 缓存 使 用 稠密 表示 时 无 法 缓存 的 数据 ， 即 
使 数据 本 身 比 较 稠 密 ， 你 也 应 当选 择 稀 玻 表示 。 















































11.6.5 并行 度 

对 于 大 多 数 算法 而 言 ， 你 的 输入 RDD 的 分 区 数 至 少 应 该 和 集群 的 CPU 核心 数 相当 ， 这 样 
才能 达到 完全 的 并 行 。 回 想 一 下 ， 上 默认 情况 下 Spark 会 为 文件 的 每 个 “ 块 ”创建 一 个 分 区 ， 
而 块 一 般 为 64 MB。 你 可 以 通过 向 SparkContext.textFile() 这 样 的 函数 传递 分 区 数 的 最 
小 值 来 改变 默认 行为 一 一 例如 sc.textFile("data.txt"，10)。 男 一 种 方法 是 对 RDD 调用 
repartition(numpPartitions) 来 将 RDD 分 区 成 numPartitions 个 分 区 。 你 始终 可 以 通过 
Spark 的 网 页 用 户 界面 看 到 每 个 RDD 的 分 区 数 。 同 时 ， 注 意 不 要 使 用 太 多 分 区 ， 因 为 这 会 
增加 通信 开销 。 
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11.7 流水线 API 


从 Spark 1.2 起 ， 基 于 机 器 学 习 流 水 线 的 概念 ，MLlib 增加 了 一 套 新 的 高 层 机 器 学 习 API。 
这 套 API 和 SciKit-Learn (http://scikit-learn.org) 中 提供 的 流水 线 API 比较 相似 。 简 单 地 
说 ,流水 线 就 是 一 系列 转化 数据 集 的 算法 (要么 是 特征 转化 ， 要 么 是 模型 拟 合 )。 流 水 线 
的 每 个 步 又 都 可 能 有 参数 (例如 人 逻辑 回归 中 的 迷 代 次 数 )。 流 水 线 API 通过 使 用 所 选 的 评 
佑 和 矩阵 评估 各 个 集合 ， 使 用 网 格 搜 索 自 动 找到 最 佳 的 参数 集 。 


流水 线 API 使 用 我 们 第 9 章 中 介绍 过 的 Spark SQL 中 的 SchemaRDD 作为 统一 的 数据 集 表 
示 形 式 。SchemaRDD 中 有 多 个 有 名 字 的 列 ， 这 样 要 引用 数据 的 不 同 字段 就 会 比较 容易 。 
流水 线 的 各 步骤 可 能 会 给 SchemaRDD 加 上 新 的 列 (例如 提取 了 特征 的 数据 )。 总 体 的 理念 
也 和 R 中 的 DataFrame 有 些 类 似 。 


为 了 让 你 感受 一 下 这 套 API， 我 们 把 本 章 之 前 用 过 的 垃圾 邮件 分 类 的 例子 用 这 种 接口 重新 
实现 了 一 遍 。 我 们 也 展示 了 如 何 通 过 对 HashingTF 和 LogisticRegression 的 参数 使 用 几 组 
不 同 值 并 进行 网 格 搜索 ， 来 让 这 个 示例 程序 更 加 清晰 明了 ， 如 例 11-15 所 示 。 


例 11-15: 在 Scala 中 使 用 流水 线 API 实现 垃圾 邮件 分 类 


import org.apache.spark.sqL.SQLContext 

import org.apache.spark.ml.Pipeline 

import org.apache.spark.ml.classification.LogisticRegression 

import org.apache.spark.ml.feature. {HashingTF, Tokenizer} 

import org.apache.spark.ml.tuning.{CrossValidator, ParamGridBuilder} 
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator 









































// 用 来 表示 文档 的 类 ,会 被 转 入 SchemaRDD 中 
case class LabeledDocument(id: Long, text: String, label: Double) 
val documents = // ( 读 取 LabeledDocument 的 RDD) 





val sqlContext = new SQLContext(sc) 
import sqlContext._ 


// 配置 该 机 器 学 习 流 水 线 中 的 三 个 步骤 :分 词 . 词 频 计数 .逻辑 回归 ;每 个 步 双 C 
// 会 输出 SchemaRDD 的 一 个 列 , 并 作为 下 一 个 步骤 的 输入 列 
val tokenizer = new Tokenizer() // 把 各 邮件 切 分 为 单词 
.setInputCol("text") 
.SetOutputCol("words") 
val tf = new HashingTF() // 将 邮件 中 的 单词 映射 为 包含 10006 个 特征 的 向 量 
.SetNumFeatures(10000) 
.SetInputCol(tokenizer .getOutputCol) 
.SetOutputCol("features") 
val lr = new LogisticRegression() // 默认 使 用 "features" 作 为 输入 列 
val pipeline = new Pipeline().setStages(Array(tokenizer, tf, 1r)) 
































// 使 用 流水 线 对 训练 文档 进行 拟 合 


val model = pipeline.fit(documents) 





// 或 者 ,不 使 用 上 面 的 参数 只 对 训练 集 进行 一 次 拟 合 , 也 可 以 





208 | 第 11 章 





// 通过 交叉 验证 对 一 批 参数 进行 网 格 搜索 ,来 找到 最 佳 的 模型 

val paramMaps = new ParamGridBuilder() 
.addGrid(tf.numFeatures, Array(10000, 20000)) 
.addGrid(lr.maxIter, Array(100, 200)) 
.build() // 构建 参数 的 所 有 组 合 

val eval = new BinaryClassificationEvaluator() 

val cv = new CrossValidator() 
.SetEstimator(lr) 
.SetEstimatorparamMaps(paramMaps) 
.SetEvaluator (eval) 

val bestModel = cv.fit(documents) 














在 写作 本 书 时 ， 流 水 线 API 还 属于 试验 性 接口 ， 你 可 以 从 MLlib 文档 (http://spark.apache. 
org/docs/latest/mllib-guide.html) 中 找到 关于 流水 线 API 的 最 新 文档 。 


11.8 ”总结 


本 章 概述 了 Spark 的 机 器 学 习 算 法 库 。 如 你 所 见 ，MLlib 与 Spark 的 其 他 API 紧密 联系 。 
它 可 以 让 你 操作 RDD， 而 得 到 的 结果 也 可 以 在 其 他 Spark 函数 中 使 用 。MLlib 也 是 Spark 
开发 最 为 活跃 的 组 件 之 一 ， 它 还 在 不 断 发 展 中 。 我 们 建议 查阅 你 所 使 用 的 Spark 版 本 所 对 
应 的 官方 文档 (http://spark.apache.org/documentation.html) 以 了 解 其 中 的 最 新 功能 。 
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Spark 快 速 大 数据 分 析 


如 今 ， 所 有 领域 的 数据 量 都 在 急剧 增长 。 如 何 才 能 高 效 利 用 这 些 数据 
呢 ? 本 书 介 绍 了 开源 集群 计算 系统 Apache Spark， 它 可 以 加 速 数据 分 析 
的 实现 和 运行 。 利 用 Spark， 你 可 以 用 Python、Java 以 及 Scala 的 简易 APl 
来 快速 操控 大 规模 数据 集 。 


本 书 由 Spark 开 发 者 编写 ， 可 以 让 数据 科学 家 和 工程 师 即 刻 上 手 。 你 能 学 
到 如 何 使 用 简短 的 代码 实现 复杂 的 并 行 作业 ， 还 能 了 解 从 简单 的 批 处 理 
作业 到 流 处 理 以 及 机 器 学 习 等 应 用 。 





通过 阅读 本 书 ， 你 可 以 : 


国 快速 深入 探索 Spark 功 能 ， 比 如 分 布 式 数据 集 、 内 存 式 缓 存 和 交 
互 式 shell; 


国 充分 利用 Spark 强 大 的 内 建 库 ， 包 括 Spark SQL、Spark Streaming 
和 MLIib ; 


国 使 用 统一 的 编程 范式 而 不 需要 组 合 使 用 Hive、Hadoop、 
Mahout、Storm 等 工具 ; 


国 学 习 如 何 部 署 交 互 式 应 用 、 批 处 理应 用 以 及 流 式 计算 应 用 
国 连接 HDFS、Hive、JSON 以 及 S53 等 数据 源 ，; 
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